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推荐 序 


数据 的 爆炸 式 增 长 和 隐藏 在 这 些 数据 背后 的 商业 价值 催生 了 一 代 又 一 代 的 大 数据 处 理 
技术 。 十 年 前 Hadoop 横 空 出 世 ，Cloudera 首席 架构 师 Doug Cutting 先生 将 Google 的 
MapReduce 思想 用 开源 的 方式 实现 出 来 ， 由 此 拉 开 了 基于 MapReduce 的 大 数据 处 理 框架 
在 企业 中 应 用 的 序幕 。 最 近 几 年 ，Hadoop 生态 系统 又 发 展 出 以 Spark 为 代表 的 新 计算 框 
架 。 相 比 MapReduce，Spark 速度 快 ， 开 发 简单 ， 并 且 能 同时 兼顾 批 处 理 和 实时 数据 分 析 。 
Spark 起 源 于 加 州 大 学 伯克利 分 校 的 AMPLab ，Cloudera 公司 作为 大 数据 市 场 上 的 起 楚 很 
早 就 开始 将 Spark 推广 到 广大 企业 级 客户 并 积累 了 大 量 的 经 验 。Advanced Analysis with 
Spark 一 书 正 是 这 些 经 验 的 结晶 。 男 一 方面 ， 企 业 级 用 户 在 引入 Spark 技术 时 磁 到 的 最 大 
难题 之 一 就 是 能 够 灵活 应 用 Spark 技术 的 人 才 匮 乏 。 听 闻 Cloudera 中 国 公司 的 秦 少 成 在 与 
图 灵 公 司 一 起 为 Advanced Analysis with Spark 一 书 的 中 文 版 在 日 夜 奋 战 ， 我 便 欣 然 作 序 ， 
也 算是 为 国内 企业 更 好 地 应 用 Spark 技术 尽 自己 的 一 份 力量 1 


本 书 开篇 介绍 了 Spark 的 基础 知识 ， 然 后 详细 介绍 了 如 何 将 Spark 应 用 到 各 个 行业 。 与 许 
多 书籍 只 着 重 描述 最 终 方 案 不 同 ， 本 书 作者 在 介绍 案例 时 把 解决 问题 的 整个 过 程 也 展现 了 
出 来 。 在 介绍 一 个 主题 时 ， 并 不 是 一 开始 就 给 出 最 终 方案 ， 而 是 先 给 出 一 个 最 初 并 不 完善 
的 方案 ， 然 后 指出 方案 的 不 足 ， 引 导读 者 思考 并 逐步 改进 ， 最 终 得 出 一 个 相对 完善 的 方 
案 。 这 体现 了 工程 问题 的 解决 思路 ， 也 体现 了 大 数据 分 析 是 一 个 迭代 的 过 程 ， 这 样 的 论述 
方式 更 能 激发 读者 的 思 芳 ， 这 一 点 实在 难能可贵 。 


本 书 英文 版 自 出 版 以 来 在 亚马逊 网 站 大 数据 分 析 类 书籍 中 一 直 名 列 前 茂 ， 而 且 获 得 的 多 为 
五 星 级 评价 ， 可 见 国外 读者 对 该 书 的 喜爱 。 本 书 中 文 版 译 者 缆 少 成 技术 扎实 ， 在 英特尔 
和 Cloudera 工作 期 间 带 领 团 队 成 功 实施 过 许多 大 数据 平台 项 目 ， 而 且 其 英语 功底 也 相当 扎 
实 ， 此 外 我 偶然 得 知 他 还 是 国内 少数 通过 高 级 口译 考试 的 专业 人 才 。 所 以 本 书 的 中 文 版 交 
给 右 少 成 翻译 实在 是 件 让 人 欣慰 的 事情 。 本 书 中 文 版 初稿 也 证 实 了 我 的 判断 ， 不 仅 保 持 了 
英文 版 的 风格 ， 而 且 语 言 也 十 分 流畅 。 如 果 你 了 解 Scala 语言 ， 还 有 一 些 统 计 学 和 机 器 学 
习 基 础 ， 那 么 本 书 是 你 学 习 Spark 时 必 备 的 书籍 之 一 ! 
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一 一 首 饥 翔 ，Cloudera 公司 副 总 裁 


i 


大 数据 是 这 几 年 科技 和 应 用 领域 炙手可热 的 话题 ， 而 Spark 又 是 大 数据 领域 里 最 活跃 的 技 


术 。 对 Spark 这 个 技术 ， 国 


内 研究 比较 多 的 是 原型 


E 和 源 代码 ， 而 许多 客户 抱怨 Spark 应 用 


落地 难 。 造 成 这 一 现象 的 一 个 主要 原因 是 Spark 技术 比较 新 ， 许 多 应 用 还 处 在 探索 阶段 。 
Cloudera 公司 作为 全 球 大 数据 领域 的 领头 羊 ， 在 给 全 球 客 户 提供 最 高 质量 大 数据 平台 的 同 


时 ， 也 积累 了 许多 Spark 应 用 方 
学 家 ， 也 长 期 为 客户 提供 


而 的 宝 吐 经 验 。 本 
专业 的 数据 分 析 服 务 。 可 以 说 ， 本 书 的 


项 目的 落地 起 到 巨大 的 推动 作用 。 
同时 我 也 注意 到 ， 国 内 Spark 数据 分 析 方 面 的 


的 层面 上 。 当 然 ， 这些- 


四 位 作者 均 为 Cloudera 公司 的 数据 科 
版 将 为 Spark 数据 分 析 


BB 籍 少 ， 而 且 许 多 书籍 都 停留 在 源 代码 研究 
区 中 也 不 乏 非常 优秀 的 作品 ， 但 我 认为 Spark 真正 的 力量 在 于 其 开 


发 的 大 数据 应 用 。 所 以 早 在 本 书 还 处 于 初期 编写 过 程 中 时 ， 我 就 自告奋勇 和 作者 联系 中 文 


版 事宜 ， 希 望 以 此 为 中 国 的 大 数据 分 析 寻 


本 书 在 翻译 过 程 中 得 到 了 许多 人 的 帮助 。 
书 的 四 位 作者 。 在 本 书 的 翻译 过 程 中 ， 


首先 要 感谢 我 在 Cloudera 公司 的 同事 ， 也 就 是 本 
由 于 不 同 语言 的 习惯 问题 ， 四 位 作者 Sandy Ryza、 
Uri Laserson、Sean Owen 和 Josh Wills 兹 了 许多 时 间 和 我 交流 。 本 人 之 所 以 有 夷 负责 本 书 


的 中 文 版 翻译 ， 也 是 承蒙 Sean Owen 的 引荐 。 感 谢 Cloudera 公司 全 球 副 总 裁 凑 琦 先生 和 苗 


凯 翔 博士 ， 没 有 两 位 领导 的 努力 ，Cloudera 中 


中 的 鼓励 ， 中 文 版 的 翻译 工作 才 得 以 天 


修改 贡献 了 六 


新 欣 编辑 在 秋 


国 区 团队 不 可 能 如 此 迅速 组 建 并 形成 如 此 强 


F 始 。 英 特 尔 亚太 研发 公司 工程 师 印 乌 对 本 书 初 稿 的 


F 多 宝贵 建议 。 同 时 本 书 在 翻 
峰 、 廉 君 、 陈 碰 、 陈 新 江 、 李 大 超 和 张 和 莉 苹 的 电力 帮助 。 感 谢 医 
有 译 过 程 中 的 指导 和 仔细 审阅 。 由 于 本 书 的 翻译 都 是 在 周末 完成 的 ， 所 以 要 特 
别 感谢 我 的 妻子 周 幼 琼 在 每 个 周末 对 我 的 照顾 。 


译 过 程 中 还 得 到 了 Cloudera 公司 中 国 


区 同事 刘 损 


灵 公 司 的 李 松 峰 编辑 和 策 
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由 于 本 人 的 水 平 有 限 ， 同 时 本 书 涉及 许多 课题 ， 所 以 现 有 译文 中 难免 存在 丝 漏 之 处 。 和 希望 
读者 能 够 不 音 赐 教 ， 发 现 问 题 时 麻烦 和 我 联系 。 邮 件 请 发 送 至 gongshaocheng@gmail.com。 


大 少 成 
2015 年 7 月 于 上 海 


自从 在 加 州 大 学 伯克利 分 校 创立 Spark 项 目 起 ， 我 就 时 常 心潮 澎 涯 。 不 仅 因 为 Spark 可 以 
帮助 人 们 快速 构建 并 行 系统 ， 更 因为 Spark 帮助 了 越 来 越 多 的 人 使 用 大 规模 计算 。 因 此 看 
到 这 本 介绍 Spark 高 级 分 析 的 书 ， 我 非常 欣慰 1! 该 书 由 数据 科学 领域 四 位 专家 Sandy、Uri、 
Sean 和 Josh 携手 打造 。 四 位 作者 研习 Spark 已 入 ， 他 们 在 本 书 中 跟 读者 分 享 了 关于 Spark 
的 大 量 精彩 内 容 ， 同 时 本 书 的 案例 部 分 同样 出 众 ! 


对 于 这 本 书 ， 我 最 钟爱 的 是 它 强调 和 案例， 而 且 这 些 案例 都 源 于 现实 数据 和 实际 应 用 。 找 到 
一 个 像样 的 、 能 在 笔记 本 电脑 上 运行 的 大 数据 案例 已 经 很 难 ， 更 过 论 十 个 了 。 但 本 书 作 者 
做 到 了 ! 作者 为 大 家 准备 好 了 一 切 ， 只 等 你 在 Spark 中 运行 它们 。 更 难能可贵 的 是 ， 作 者 
不 仅 讨论 了 核心 算法 ， 更 倾心 于 数据 准备 和 模型 调 优 ， 没 有 这 些 工作 ， 实 际 项 目 中 就 无 法 
得 到 好 的 结果 。 认 真 研 读 此 书 ， 你 应 该 可 以 吸收 这 些 案例 中 的 概念 并 直接 将 其 运用 在 自己 
的 项 目 中 ! 


大 数据 处 理 无 疑 是 当今 计算 领域 最 激动 人 心 的 方向 之 一 ， 发 展 非常 迅猛 ， 新 思想 层 出 不 
穷 。 愿 本 书 能 帮助 你 在 这 个 条 新 的 领域 中 扬帆 启 航 ! 


Matei Zaharia 
Databricks 公司 CTO 兼 Apache Spark 项 目 副 总 裁 
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作者 : Sandy Ryza 


我 不 想 我 的 人 生 有 很 多 遗憾 。2011 年 的 某 个 慷 懒 的 时 刻 ， 我 在 正 绞 尽 脑汁 地 想 如 何 把 高 难 
度 的 离散 优化 问题 最 优 地 分 配给 计算 机 集群 处 理 ， 真 是 很 难 想 到 有 什么 好 方法 。 我 的 导师 
跟 我 讲 ， 他 昕 说 有 个 叫 Spark 的 新 技术 ， 可 我 基本 上 没 当 回 事 。Spark 的 想法 太 好 了 ， 让 
人 和 觉得 有 点 儿 不 靠 谱 。 就 这 样 ， 我 很 快 又 回去 接着 写 MapReduce 的 本 科 毕 业 论文 了 。 时 
光 在 得 ，Spark 和 我 都 渐 产 成 熟 ， 但 我 们 之 间 有 一 个 已 然 成 为 冉冉 之 星 ， 这 让 人 不 禁 感叹 
“Spark”( 星 星之 火 ) 这 个 双关 语 是 多 么 贴切 。 两 年 后 ，Spark 的 价值 举世 皆 知 ! 


Spark 的 前 辈 有 很 多 ， 从 MPI 到 MapReduce。 利 用 这 些 计算 框架 ， 我 们 写 的 程序 可 以 充分 
利用 大 量 资源 ， 但 不 需要 关心 分 布 式 系统 的 实现 细节 。 数 据 处 理 的 需求 促进 了 这 些 技术 
框架 的 发 展 。 同 样 ， 大 数据 领域 也 和 这 些 框架 关系 密切 ， 这 些 框架 界定 了 大 数据 的 范围 。 
Spark 有 望 更 进一步 ， 让 写 分 布 式 程序 就 像 写 普通 程序 一 样 。 
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Spark 能 大 大 提升 ETL 流水 作业 的 性 能 ， 并 把 MapReduce 程序 员 从 每 天 问 天 天 不 灵 、 问 地 
地 不 应 的 绝望 痛苦 中 解救 出 来 。 对 我 而 言 ，Spark 的 激动 人 心 之 处 在 于 ， 它 真正 打开 了 复 
杂 数 据 分 析 的 大 门 。Spark 带 来 了 支持 迭代 式 计算 和 交互 式 探索 的 模式 。 利 用 这 一 开源 计 
算 框架 ， 数 据 科学 家 终于 可 以 在 大 数据 集 上 高 效 地 工作 了 。 


我 认为 数据 科学 教学 最 有 效 的 方法 是 利用 实例 。 为 此 ， 我 和 同事 一 起 编撰 了 这 本 关于 实际 
应 用 的 书 ， 希 望 它 能 涵盖 大 规模 数据 分 析 中 最 常用 的 算法 、 数 据 集 和 设计 模式 。 阅 读本 书 
时 不 必 一 页 一 页 地 看 ， 可 以 根据 工作 需要 或 按 兴 趣 直 接 翻 到 相关 音节。 


本 书 内 容 


第 1 章 结合 数据 科学 和 大 数据 分 析 的 广阔 背景 来 讨论 Spark。 随 后 各 章 在 介绍 Spark 数据 
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分 析 时 都 自 成 一 体 。 第 2 章 通过 数据 清洗 这 一 使 用 场景 来 介绍 用 Spark 和 Scala 进行 数据 
处 理 的 基础 知识 。 接 下 来 几 童 深入 讨论 如 何 将 Spark 用 于 机 器 学 习 ， 介 绍 了 常见 应 用 中 几 
个 最 常用 的 算法 。 其 余 几 章 则 收集 了 一 些 更 新 颖 的 应 用 ， 比 如 通过 文本 隐 含 语义 关系 来 查 
询 Wikipedia 或 分 析 基 因数 据 。 


使 用 代码 示例 


补充 材料 〈 代 码 示例 、 练 习 、 勘 误 表 等 ) 可 以 从 https://github.com/sryza/aas 下 载 。 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ;引用 本 书 中 的 示例 代码 回答 问题 无 需 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Advanced Analytics with Spark by Sandy Ryza, Uri Laserson, 
Sean Owen, and Josh Wills (O’Reilly). Copyright 2015 Sandy Ryza, Uri Laserson, Sean Owen, 
and Josh Wills, 978-1-491-91276-8.” 
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如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


Safari2 Books Online 


Safari Books Online (http //safaribooksonline.com) 是 应 运 而 生 

Safa 的 数 守 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 技术 

Books Online 和 商务 作家 的 专业 作品 。 技 术 专 家 、 软 件 开 发 人 员 、Web 设 

计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 习 和 认证 培训 时 ， 都 将 Safari 
Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定价 
策略 。 


用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O’Reilly Media、Prentice Hall Professional、 
Addison-Wesley Professional、 Microsoft Press、 Sams、Que、Peachpit Press、Focal Press、 
Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、 IBM Redbooks、Packt、 
Adobe Press、 FT Press、 Apress、 Manning、 New Riders、McGraw-Hill、Jones & Bartlett、 
Course Technology 以 及 其 他 几 十 家 出 版 社 (https:/www.safaribooksonline.com/our-library/) 


| 前 言 


的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 


我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
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O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 


例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://shop.oreilly.com/product/0636920035091.do 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly.com 


要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : 
http://www.youtube.com/oreillymedia 
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如 果 没 有 Apache Spark 和 MLlib， 就 没有 本 书 。 所 以 我 们 应 该 感谢 开发 了 Spark 和 MLlib 


并 将 其 开源 的 团体 ， 也 要 感谢 那些 添砖加瓦 的 数 以 百 计 的 代码 贡献 者 。 


我 们 还 要 感谢 本 书 的 每 一 位 审阅 者 ， 感 谢 他 们 花费 了 大 量 的 时 间 来 审阅 本 书 的 内 容 ， 感 
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Kostas Sakellis、Marcelo Vanzin 和 另 一 位 Juliet Hougland。 谢 谢 你 们 所 有 人 1! 我 们 欠 你 们 
一 个 大 人 情 ! 你 们 的 努力 大 大 改进 了 本 书 的 结构 和 质量 。 


我 (Sandy) 还 要 感谢 Jordan Pinkus 和 Richard Wang， 你 们 帮助 我 完成 了 风险 分 析 章 节 的 
原理 部 分 。 
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支持 ! 


第 1 章 


大 数据 分 析 


作者 : Sandy Ryza 


(数据 应 用 ) 就 像 香肠 ， 最 好 别 看 见 它们 是 怎么 做 出 来 的 。 


一 一 Otto von Bismarck 


。 用 数 千 个 特征 和 数 十 亿 个 交易 来 构建 信用 卡 欺诈 检测 模型 
。 向 数 百 万 用 户 智能 地 推荐 数 百 万 产品 

。 通过 模拟 包含 数 百 万 金融 工具 的 投资 组 合 来 评估 金融 风险 
。 轻松 地 操作 成 千 上 万 个 人 类 基因 的 相关 数据 以 发 现 致 病 基因 


5 到 10 年 前 想 要 完成 上 述 任务 困难 重重 。 我 们 说 生活 在 “大 数据 ”时 代 ， 其 意思 是 指 我 
们 拥有 收集 、 存 储 、 处 理 大 量 信息 的 工具 ， 而 这 些 信息 的 规模 以 前 我 们 闻所未闻 。 这 些 能 
力 的 背后 是 许多 开源 软件 组 成 的 生态 系统 ， 它 们 能 利用 大 量 普通 计算 机 处 理 大 规模 数据 。 
Apache Hadoop 之 类 的 分 布 式 系统 已 经 进入 主流 ， 并 被 广泛 部 署 在 几乎 各 个 领域 的 组 织 里 。 


但 就 像 铂 刀 和 石头 本 身 并 不 构成 雕塑 一 样 ， 有 了 工具 和 数据 并 不 等 于 就 可 以 做 有 用 的 事 
情 。 这 时 我 们 就 需要 “数据 科学 ”了 。 有 雕刻 是 利用 工具 将 原始 石材 变 成 普通 人 都 能 看 懂 的 
雕塑 ， 数 据 科学 则 是 利用 工具 将 原始 数据 变 成 对 不 懂 数 据 科 学 的 普通 人 有 价值 的 东西 。 


通常 “做 有 用 的 事情 ” 指 给 数据 加 上 模式 并 用 SQL 来 回答 问题 ， 比 如 :“ 注 册 过 程 中 许多 
用 户 进入 到 第 三 个 页 面 ， 其 中 有 多 少 用 户 年 龄 超过 25 岁 ? ”如 何 结构 化 数据 并 组 织 信息 
来 回答 此 类 问题 涉及 面 很 广 ， 本 书 不 对 其 细节 过 多 殉 述 。 


有 时 候 “ 产 生 价值 ”需要 多 付出 一 些 努 力 。SQL 可 能 仍 扮演 重要 角色 ， 但 为 了 处 理 数据 的 
特质 或 进行 复杂 分 析 ， 人 们 需要 一 个 更 灵活 、 更 易 用 的 ， 且 在 机 器 学 习 和 统计 方面 功能 
丰富 的 编程 模式 。 本 书 将 重点 讨论 此 类 型 的 分 析 。 


长 久 以 来 ， 人 们 利用 R、PyData 和 Octave 等 开源 框架 可 以 在 小 数据 集 上 进行 快速 分 析 和 
建 模 。 只 需 不 到 10 行 代码 ， 就 可 以 利用 数据 集 的 一 部 分 数据 构建 出 机 器 学 习 模 型 ， 再 利 
用 该 模型 预测 其 余数 据 的 分 类 。 如 果 多 写 儿 行 代码 ， 我 们 还 能 处 理 遗 失 数 据 ， 尝 试 多 个 模 
型 并 从 中 找 出 最 佳 模型 ， 或 者 用 一 个 模型 的 结果 作为 输入 来 拟 合 另 一 个 模型 。 但 如 果 数 据 
集 巨 大 ， 必 须 利 用 大 量 计 算 机 来 达到 相同 效果 ， 我 们 该 怎样 做 呢 ? 


一 个 可 能 正确 的 方法 是 简单 扩展 这 些 框架 使 之 能 运行 在 多 台 机 器 上 ， 保 留 框架 的 编程 模 
型 ， 同 时 重 写 其 内 核 使 之 在 分 布 式 环境 下 能 顺利 运行 。 但 是 ， 分 布 式 计算 难度 大 ， 我 们 
必须 重新 思考 在 单机 系统 中 的 许多 基本 假设 在 分 布 式 环 境 下 是 否 依然 成 立 。 比 如 ， 由 于 
集群 环境 下 数据 需要 在 多 个 节点 间 切 分 ， 网 络 传输 速度 比 内 存 访问 慢 几 个 数量 级 ， 如 果 
算法 涉及 宽 数据 依赖 ， 情 况 就 很 糟糕 。 随 着 机 器 数量 的 增加 ， 发 生 故 障 的 概率 也 相应 增 
加 。 这 些 实际 情况 要 求 编程 模式 适 配 底层 系统 : 编程 模式 要 防止 不 当选 项 并 简化 高 度 并 
行 代 码 的 编写 。 


当然 ， 除 了 像 PyData 和 R 这 样 在 软件 社区 里 表现 优异 的 单机 工具 ， 数 据 分 析 还 用 到 其 他 
工具 。 在 科学 领域 ， 比 如 常常 涉及 大 规模 数据 的 基因 学 ， 人 们 使 用 并 行 计算 框架 已 经 有 
儿 十 年 的 历史 了 。 今天， 在 这 些 领 域 处 理 数据 的 人 大 多 数 都 熟悉 HPC (High-Performance 
Computing， 高 性 能 计算 ) 集群 计算 环境 。 然 而 ，PyData 和 R 的 问题 在 于 它们 很 难 扩展 。 
同样 ，HPC 的 问题 在 于 它 的 抽象 层次 较 低 ， 难 于 使 用 。 比 如 要 并 行 处 理 一 个 大 DNA 测序 
文件 ， 人 们 需要 手工 将 该 文件 拆 成 许多 小 文件 ， 并 为 每 个 小 文件 向 集群 调度 器 提交 一 个 作 
业 。 如 果 某 些 作业 失败 ， 用 户 需 要 检查 失败 并 手工 重新 提交 。 如 果 操 作 涉及 整个 数据 集 ， 
比如 对 整个 数据 集 排序 ， 庞 大 的 数据 集 必 须 流入 单个 节点 ， 否 则 科学 家 就 要 用 MPI 这 样 底 
层 的 分 布 式 框架 。 这 些 底 层 框 架 使 用 难度 大 ， 用 户 必 须 精通 C 语言 和 分 布 式 /网 络 系统 。 
这 些 工具 为 HPC 环境 编写 ,往往 很 难 将 内 存 数据 模型 和 底层 存储 模型 独立 开 来 。 比 如 很 
多 工具 只 能 从 单个 流 读 取 POSIX 文件 系统 数据 ， 很 难 自然 并 行 化 ， 不 能 用 于 读 取 数据 库 等 
其 他 后 台 存 储 。 最 近 ，Hadoop 生态 系统 提供 了 抽象 ， 让 用 户 使 用 计算 机 集群 就 像 使 用 单 
台 计 算 机 一 样 。 该 抽象 自动 拆 分 文件 并 在 多 台 计 算 机 上 分 布 式 存储 ， 自 动 将 工作 拆 分 成 车 
干 粒 度 更 小 的 任务 并 分 布 式 执行 ， 出 错时 自动 恢复 。Hadoop 生态 系统 将 大 数据 集 处 理 涉 
及 的 许多 琐碎 工作 自动 化 ， 并 且 启 动 开销 比 HPC 小 得 多 。 


1.1 数据 科学 面临 的 挑战 
数据 科学 界 有 几 个 硬 道理 是 不 能 违背 的 ，Cloudera 数据 科学 团队 的 一 项 重要 职责 就 是 宣扬 


这 些 硬 道理 。 一 个 系统 要 想 在 海量 数据 的 复杂 数据 分 析 方面 取得 成 功 ， 必 须要 明白 这 些 硬 
道理 ， 至 少 不 能 违背 这 些 硬 道理 。 
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第 一 ， 成 功 的 分 析 中 绝 大 部 分 工作 是 数据 预 处 理 。 数 据 是 混乱 的 ， 在 让 数据 产生 价值 之 
前 ， 必 须 对 数据 进行 清洗 、 处 理 、 融 合 、 挖 掘 和 许多 其 他 操作 。 特 别 是 对 大 数据 集 ， 由 于 
人 们 很 难 直 接 检 查 ， 为 了 知道 需要 哪些 预 处 理 步 又 ， 甚 至 需 采 用 计算 方法 。 一 般 情 况 下 ， 
即使 在 模型 调 优 阶段 ， 在 整个 数据 处 理 管道 各 个 作业 中 ， 花 在 特征 提取 和 选择 上 的 时 间 比 
选择 和 实现 算法 的 时 间 还 要 多 。 


比如 ， 在 构建 网 站 欺诈 交易 检测 模型 时 ， 数 据 科学 家 需要 从 许多 可 能 的 特征 中 进行 选择 。 
这 些 特征 包括 必 填 项 、IP 地 址 信息 、 登 录 次 数 、 用 户 浏 览 网 站 时 的 点 击 日 志 等 。 在 将 特征 
转换 成 适用 于 机 器 学 习 算法 的 向 量 时 ， 每 个 特征 可 能 都 会 有 不 同 的 问题 。 系 统 需 要 支持 更 
灵活 的 转换 ， 远 远 不 止 是 将 二 维 双 精 度数 组 转换 成 一 个 数学 模型 那么 简单 。 


第 二 ， 迭 代 与 数据 科学 紧密 相关 。 建 模 和 分 析 经 常 需要 对 一 个 数据 集 进行 多 次 遍历 。 这 其 
中 一 方面 是 由 机 器 学 习 算 法 和 统计 过 程 本 身 造 成 的 。 常 用 的 优化 过 程 ， 比 如 随机 梯度 下 降 
和 最 大 似 然 估计 ， 在 收敛 前 都 需要 多 次 扫描 输入 数据 。 数 据 科学 家 自身 的 工作 流程 也 涉及 
迭代 。 在 初步 调查 和 理解 数据 集 时 ， 一 个 查询 的 结果 往往 给 下 一 个 查询 带 来 启示 。 在 构建 
模型 时 ， 数 据 科学 家 往往 很 难 在 第 一 次 就 得 到 理想 的 结果 。 选 择 正确 的 特征 ， 挑 选 合适 的 
算法 ， 运 行 恰当 的 显著 性 测试 ， 找 到 合适 的 超 参数 ， 所 有 这 些 工作 都 需要 反复 试验 。 框 架 
每 次 访问 数据 都 要 读 磁盘 ， 这 样 会 增加 时 延 ， 降 低 探 索 数 据 的 速度 ， 限 制 了 数据 科学 家 进 
行 试验 的 次 数 。 

第 三 ， 构 建 完 表现 卓越 的 模型 不 等 于 大 功 告 成 。 数 据 科学 的 目标 在 于 让 数据 对 不 懂 数 据 科 
学 的 人 有 用 。 把 模型 以 许多 回归 权 值 的 形式 存 成 文本 文件 放 在 数据 科学 家 的 计算 机 里 ， 这 
样 做 根本 没有 实现 数据 科学 的 目标 。 数 据 推荐 引擎 和 实时 欺诈 检测 系统 是 最 常见 的 数据 应 
用 。 这 些 应 用 中 模型 作为 生产 服务 的 一 部 分 ， 需 要 定期 甚至 是 实时 重建 。 


在 这 些 场 景 中 ， 有 必要 区 别 分 析 是 试验 环境 还 是 生产 环境 。 在 试验 环境 下 ， 数 据 科学 家 进 
行 探测 式 分 析 。 他 们 想 理 解 工作 数据 集 的 本 质 。 他 们 将 数据 图 形 化 并 用 各 种 理论 来 测试 。 
他 们 用 各 种 特征 做 试验 ， 用 辅助 数据 源 来 增强 数据 。 他 们 试验 各 种 算法 ,希望 从 中 找到 一 
两 个 有 效 算法 。 在 生产 环境 下 ， 构 建 数 据 应 用 时 ， 数 据 科 学 家 进行 操作 式 分 析 。 他 们 把 模 
型 打包 成 服务 ， 这 些 服务 可 以 作为 现实 世界 的 决策 依据 。 他 们 跟踪 模型 随时 间 的 表现 ， 哪 
怕 是 为 了 将 模型 准确 度 提 高 一 个 百分点 ， 他 们 都 会 精心 调整 模型 并 且 乐 此 不 疲 。 他 们 关心 
服务 SLA 和 在 线 时 间 。 由 于 历史 原因 ， 探 索 式 分 析 经 常 使 用 R 之 类 的 语言 ， 但 在 构建 生 
产 应 用 时 ， 数 据 处 理 过 程 则 完全 用 Java 或 C++ 重 写 。 


当然 ， 如 果 用 于 建 模 的 原始 代码 也 可 用 于 生产 应 用 ， 那 就 能 节省 每 个 人 的 时 间 。 但 像 R 
之 类 的 语言 运行 缓慢 ， 很 难 将 其 与 生产 基础 设施 的 技术 平台 进行 集成 ， 而 Java 和 C++ 之 
类 的 语言 又 很 难 用 于 探索 式 分 析 。 它 们 缺乏 交互 式 数据 操作 所 需 的 REPL (Read-Evaluate- 
Print-Loop， 读 取 - 计算 - 打印 - 循环 ) 环境 ， 即使 是 简单 的 转换 ， 也 需要 写 大 量 代码 。 人 
们 迫切 需要 一 个 既 能 轻松 建 模 又 适合 生产 系统 的 框架 。 
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1.2 认识 Apache Spark 


该 介绍 Apache Spark 了 。Spark 是 一 个 开源 框架 ， 作 为 计算 引擎 ， 它 把 程序 分 发 到 集群 
中 的 许多 机 器 ， 同 时 它 提 供 了 一 个 优雅 的 编程 模型 。Spark 源 自 加 州 大 学 伯克利 分 校 的 
AMPLab， 现 在 已 被 捐献 给 了 Apache 软件 基金 会 。 可 以 这 么 说 ， 对 于 数据 科学 家 而 言 ， 真 
正 让 分 布 式 编程 进入 寻常 百姓 家 的 开源 软件 ，Spark 是 第 一 个 。 


了 解 Spark 的 最 好 办 法 莫 过 于 了 解 相 比 于 它 的 前 辈 MapReduce，Spark 有 哪些 进步 。 
MapReduce 革新 了 海量 数据 计算 的 方式 ， 为 运行 在 成 百 上 千 台 机 器 上 的 并 行程 序 提供 了 简 
单 的 编程 模型 。MapReduce 引擎 几乎 可 以 做 到 线性 扩展 : 随 着 数据 量 的 增加 ， 可 以 通过 增 
加 更 多 的 计算 机 来 保持 作业 时 间 不 变 。 而 且 MapReduce 是 健壮 的 。 故 障 虽 然 在 单 台 机 器 上 
很 少 出 现 ， 但 在 数 千 个 布点 的 集群 上 却 总 是 出 现 。 对 于 这 种 情况 ，MapReduce 也 能 妥善 处 
EE。 它 将 工作 拆 分 成 多 个 小 的 任务 ， 能 优雅 地 处 理 任务 失败 ， 并 且 不 影响 任务 所 属 作 业 的 
正确 执行 。 


Mea 
VT 


Spark 继承 了 MapReduce 的 线性 扩展 性 和 容错 性 ， 同 时 对 它 做 了 一 些 重量 级 扩展 。 首 先 ， 
Spark 握 弃 了 MapReduce 先 map 再 reduce 这 样 的 严格 方式 ，Spark 引擎 可 以 执行 更 通用 的 
有 向 无 环 图 (DAG) 算 子 。 这 就 意味 着 ， 在 MapReduce 中 需要 将 中 间 结 果 写 入 分 布 式 文 
件 系统 时 ，Spark 能 将 中 间 结 果 直 接 传 到 流水 作业 线 的 下 一 步 。 在 这 方面 ， 它 类 似 于 Dryad 
(http://research.microsoft.com/en-us/projects/dryad/)。Dryad 也 是 从 MapReduce 衍生 出 来 的 ， 
起 源 于 微软 研究 院 。 其 次 ， 它 也 补充 了 这 种 能 力 ， 通 过 提供 许多 转换 操作 ， 用 户 可 以 更 自 
然 地 表达 计算 逻辑 。Dryad 更 加 面向 开发 人 员 ， 其 流 式 API 可 以 做 到 用 几 行 代码 表示 复杂 
的 流水 作业 。 


第 三 ，Spark 扩展 了 前 裴 们 的 内 存 计算 能 力 。 它 的 弹性 分 布 式 数据 集 (RDD) 抽象 使 开发 
人 员 将 流水 处 理 线 上 的 任何 点 物化 在 跨越 集群 节点 的 内 存 中 。 这 样 后 续 步 又 如 果 需 要 相同 
数据 集 时 就 不 必 重 新 计算 或 从 磁盘 加 载 。 这 个 特性 使 Spark 可 以 应 用 于 以 前 分 布 式 处 理 引 
擎 无 法 胜任 的 应 用 场景 中 。Spark 非常 适合 用 于 涉及 大 量 迭 代 的 算法 ， 这 些 算法 需要 多 次 
遍历 相同 数据 集 。Spark 也 适用 于 反应 式 (reactive) 应 用 ， 这 些 应 用 需要 扫描 大 量 内 存 数 
据 并 快速 响应 用 户 的 查询 。 


或 许 最 重要 的 是 ，Spark 契合 了 前 面 提 到 的 数据 科学 领域 的 硬 道理 。 它 认识 到 构建 数据 应 
用 的 最 大 瓶颈 不 是 CPU、 磁 盘 或 者 网 络 ， 而 是 分 析 人 员 的 生产 率 。 通 过 将 预 处 理 到 模型 评 
价 的 整个 流水 线 整合 在 一 个 编程 环境 中 ，Spark 大 大 加 速 了 开发 过 程 。 这 一 点 尤为 值得 称 
赞 。Spark 编程 模型 富有 表达 力 ， 在 REPL 下 包装 了 一 组 分 析 库 ， 省 去 了 多 次 往返 IDE 的 
开销 。 而 这 些 开销 对 诸如 MapReduce 等 框架 来 说 是 无 法 避免 的 。Spark 还 避免 了 采样 和 从 
HDFS 来 回 倒 腾 数据 所 带 来 的 问题 ， 这 些 问 题 是 R 之 类 的 框架 经 常 遇 到 的 。 分 析 人 员 在 数 
据 上 做 实验 的 速度 越 快 ， 他 们 能 从 数据 中 挖掘 出 价值 的 可 能 性 就 越 大 。 


在 数据 处 理 和 ETL 方面 ，Spark 的 目标 是 成 为 大 数据 界 的 Python 而 不 是 大 数据 界 的 
Matlap。 作 为 一 个 通用 的 计算 引擎 ， 它 的 核心 API 为 数据 转换 提供 了 强大 的 基础 ， 它 独立 
于 统计 学 、 机 器 学 习 或 矩阵 代数 的 任何 功能 。 它 的 Scala 和 Python API 让 我 们 可 以 用 表达 
力 极 强 的 通用 编程 语言 编写 程序 ， 还 也 可 以 访问 已 有 的 库 。 


Spark 的 内 存 缓 存 使 它 适应 于 微观 和 宏观 两 个 层面 的 迭代 计算 。 机 器 学 习 算 法 需要 多 次 人 遍 
历 训练 集 ， 可 以 将 训练 集 缓存 在 内 存 里 。 在 对 数据 集 进行 探索 和 初步 了 解 时 ， 数 据 科学 家 
可 以 在 运行 查询 的 时 候 将 数据 集 放 在 内 存 ， 也 很 容易 将 转换 后 的 版 本 缓存 起 来 ， 这 样 就 市 
省 了 访问 磁盘 的 开销 。 


最 后 ，Spark 在 探索 型 分 析 系 统 和 操作 型 分 析 系 统 之 间 搭 起 一 座 桥梁 。 我 们 经 常 说 ， 数 据 
科学 家 比 统计 学 家 更 懂 软 件 工程 ， 而 比 软件 工程 师 更 懂 统 计 学 。 基 本 上 讲 ，Spark 比 探索 
型 系统 更 像 操作 型 系统 ， 而 比 操作 型 系统 常见 的 技术 则 更 善于 数据 探索 。Spark 从 根本 上 
是 为 性 能 和 可 靠 性 而 生 的 。 由 于 构建 于 JVM 之 上 ， 它 可 以 利用 许多 Java 技术 栈 里 的 操作 
和 调试 工具 。 


Spark 还 紧密 集成 Hadoop 生态 系统 里 的 许多 工具 。 它 能 读 写 MapReduce 支持 的 所 有 数据 
格式 ， 可 以 与 Hadoop 上 的 常用 数据 格式 ， 如 Avro 和 Parquet (当然 也 包括 古老 的 CSV)， 
进行 交互 。 它 能 读 写 NoSQL 数据 库 ， 比 如 HBase 和 Cassandra。 它 的 流 式 处 理 组 件 Spark 
Streaming 能 连续 从 Flume 和 Kafka 之 类 的 系统 读 取 数据 。 它 的 SQL 库 SparkSQL 能 和 
Hive Metastore 交互 ， 而 且 在 另外 一 个 项 目 中 Spark 还 能 禁 代 MapReduce 作为 Hive 的 底层 
执行 引擎 ， 该 项 目 在 本 书 撰写 时 还 在 处 于 开发 过 程 。 它 可 以 运行 在 Hadoop 集群 调度 和 资 
源 管 理 器 YARN 之 上 ， 这 样 Spark 可 以 和 MapReduce 和 Impala 等 其 他 处 理 引 擎 动态 共享 
集群 资源 和 管理 策略 。 


当然 ，Spark 并 不 完美 。 虽 然 它 的 核心 引擎 在 成 熟 度 上 不 断 进步 ， 即 使 是 在 本 书 撰写 期 间 
也 是 如 此 ， 但 Spark 相 比 MapReduce 仍然 很 年 轻 ， 其 批 处 理 能 力 仍然 比 不 过 MapReduce。 
它 的 各 个 特殊 子 组 件 ， 比 如 流 式 处 理 、SQL、 机 器 学 习 和 图 处 理 ， 分 别处 在 不 同 的 成 熟 阶 
段 ， 每 次 升级 API 变化 较 大 。 比 如 说 ，MLlib 的 流水 线 和 转换 API 模型 在 本 书写 作 时 还 在 
开发 之 中 。 它 的 统计 和 建 模 功 能 跟 R 等 单机 版 语言 还 没有 可 比 性 。 它 的 SQL 功能 虽然 丰 
富 ， 但 和 Hive 的 SQL 功能 相 比 差距 还 非常 大 。 


1.3 关于 本 书 


本 书 接 下 来 的 部 分 不 会 继续 讨论 Spark 的 优 缺 点 。 本 书 也 不 会 涉及 其 他 几 个 话题 。 本 书 会 
介绍 Spark 的 流 式 编程 模型 和 Scala 基础 知识 ， 但 它 不 是 一 个 Spark 的 参考 书 或 参考 大 全 ， 
“会 讲 Spark 技术 细节 。 它 也 不 是 机 器 学 习 、 统 计 学 、 线 性 代数 的 参考 书 ， 但 在 讲 到 这 些 
知识 的 时 候 ， 许 多 章节 会 提供 一 些 背景 知识 。 
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另 一 方面 ， 本 书 将 帮助 读者 建立 用 Spark 在 大 规模 数据 集 上 进行 复杂 分 析 的 感觉 。 我 们 会 
讲述 整个 处 理 过 程 : 不 但 涉及 模型 的 构建 和 评价 ， 也 会 讲述 数据 清洗 、 数 据 预 处 理 和 数据 
探索 ， 并 会 花费 笔墨 描述 怎样 将 结果 变 成 生产 应 用 。 我 们 认为 最 好 的 教学 方法 是 实例 ， 所 
以 在 快速 介绍 完 Spark 及 其 生态 系统 之 后 ， 本 书 其 余 各 章 分 别 讨论 了 在 不 同 领域 使 用 Spark 
进行 数据 分 析 的 实例 ， 每 个 实例 都 自 成 一 体 。 


如 果 可 能 ， 我 们 尽 可 能 做 到 不 只 是 提供 解决 方案 。 我 们 会 描述 数据 科学 的 整个 工作 流程 ， 
包括 它 所 有 的 迭代 、 无 解 以 及 需要 重新 开始 的 情况 。 本 书 将 有 助 于 读者 熟悉 Scala、Spark、 
机 器 学 习 和 数据 分 析 。 但 这 都 是 为 了 一 个 更 大 的 目标 服务 ， 我 们 希望 本 书 首先 教会 读者 如 
何 完成 本 章 开 头 部 分 提 到 的 任务 。 每 一 章 虽 然 只 有 注 薄 的 20 来 页 ， 但 我 们 会 力求 把 怎样 
构建 一 个 此 类 数据 应 用 讲 清楚 讲 透 彻 。 


第 2 章 


用 Scala 和 Spark 进 行 数据 分 析 


作者 : Josh Wills 


世上 无 难事 ， 只 要 肯 耐 烦 。 
David Foster Wallace 


数据 清洗 是 数据 科学 项 目的 第 一 步 ， 往 
成 ， 原 因 就 是 分 析 的 数据 存在 严重 的 质 
使 数据 科学 家 得 出 根本 不 存在 的 规律 。 


尽管 数据 清洗 很 重要 ， 但 数据 科学 相关 的 许多 教材 和 课程 都 不 讲述 数据 清洗 ， 抑 或 一 笔 带 
过 。 造 成 这 种 现象 的 原因 其 实 很 简单 : 数据 清洗 实在 是 很 琐碎 。 然 而 “ 磨 刀 不 误 砍 柴 工 ， 
只 有 事先 做 了 这 种 沉 问 乏味 的 工作 ， 后 面 你 才能 领略 到 应 用 机 器 学 习 算 法 解决 新 问题 时 的 
醋 旷 淋 闹 。 许 多 道行 尚 浅 的 数据 科学 家 往往 急于 求 成 ， 对 数据 草草 处 理 就 进行 下 一 步 工 
作 ， 等 到 运行 算法 后 ， 却 发 现 数据 有 严重 的 质量 问题 (可 能 是 计算 量 太 大 )， 或 得 出 的 结 
有 果 完 全 不 合理 。 


往 也 是 最 重要 的 一 步 。 许 多 灵巧 的 分 析 最 后 功 败 垂 
量 问 题 ， 或 者 数据 中 某 些 因素 使 分 析 产 生 偏见 ， 或 


“垃圾 进 垃圾 出 ”这 样 浅 显 的 道理 大 家 都 明白 ， 和 危害 更 大 的 是 : 数据 看 似 合理 却 有 很 严重 
(但 第 一 眼看 不 出 来 ) 的 质量 问题 ， 你 根据 这 样 的 数据 也 得 到 了 看 似 合理 的 答案 。 许 多 数 
据 科学 家 于 饭碗， 往往 就 是 因为 这 样 错误 地 得 出 了 重要 结论 。 


数据 科学 家 最 为 人 称道 的 是 在 数据 分 析 生 命 周期 的 每 一 个 阶段 都 能 发 现 有 意思 、 有 价值 的 
问题 。 在 一 个 分 析 项 目的 早期 阶段 ， 你 投入 的 技能 和 思考 越 多 ， 对 最 终 的 产品 就 越 有 信心 。 


当然 ， 说 起 来 容易 做 起 来 难 。 对 于 数据 科学 行业 来 说 ， 这 就 像 是 告诉 小 孩子 要 多 吃 蔬菜 。 
相 比 数据 清洗 ， 摆 弄 Spark 之 类 新 滑 的 工具 ， 用 它们 构建 花哨 的 机 器 学 习 算 法 ， 开 发 流 式 
数据 处 理 引 擎 和 分 析 海 量 图 数据 ， 要 好 玩 得 多 。 那 么 ， 如 果 要 介绍 如 何 用 Spark 和 Scala 
进行 数据 处 理 ， 有 没有 一 种 比 练习 数据 清洗 更 好 的 方法 呢 ? 


2.1 数据 科学 家 的 Scala 


对 数据 处 理 和 分 析 ， 数 据 科 学 家 往往 都 自己 钟爱 的 工具 ， 比 如 R 或 者 Python。 除 非 不 得 
已 ， 数 据 科学 家 常常 会 坚持 用 他 们 所 钟爱 的 工具 ， 对 于 手头 上 的 工作 ， 他 们 总 想方设法 地 
治 用 这 些 工具 。 即 使 情况 再 顺利 ， 想 让 数据 科学 家 采用 新 的 工具 、 学 习 新 语法 和 新 使 用 模 
式 ， 都 困难 重重 。 


为 了 能 在 R 或 Python 里 直接 用 Spark，Spark 上 开发 了 专门 的 类 库 和 工具 包 。Python 有 个 
非常 好 用 的 工具 包 叫 作 PySpark， 本 书后 半 部 分 有 一 章 有 几 个 例子 介绍 它 的 用 法 。 但 是 本 
书 大 部 分 例子 还 是 用 Scala 语言 编写 的 。Spark 框架 是 用 Scala 语言 编写 的 ， 在 向 数据 科学 
家 介绍 Spark 时 ， 采 用 与 底层 框架 相同 的 编程 语言 有 很 多 好 处 。 


。 性 能 开销 小 
为 了 能 在 基于 JVM 的 语言 (比如 Scala) 上 运行 用 R 或 Python 编写 的 算法 ， 我 们 必须 
花费 代价 在 不 同 环境 中 传递 代码 和 数据 ， 而 且 在 转换 过 程 中 信息 时 有 丢失 。 但 是 ， 如 果 
数据 分 析 算 法 用 Spark Scala API 编写 ， 你 会 对 程序 正确 运行 更 有 信心 。 


。 能 用 上 最 新 的 版 本 和 最 好 的 功能 
Spark 的 机 器 学 习 、 流 处 理 和 图 分 析 库 全 都 是 用 Scala 写 的 ， 而 新 功能 对 Python 和 及 绑 
定 支 持 则 要 慢 得 多 。 如 果 想 用 Spark 的 全 部 功能 (而 不 用 花 时 间 等 待 它 移植 到 其 他 语言 
绑 定 )， 翁 怕 你 必须 学 点 儿 Scala 基础 知识 ， 如 果 想 扩展 这 些 Spark 已 有 功能 来 解决 你 手 
头 上 的 新 问题 ， 就 更 要 识 入 了 解 Scala 了 。 


。 有 助 于 你 更 了 解 Spark 的 原理 
即使 在 Python 或 R 中 调用 Spark，API 仍然 反映 了 底层 计算 原理 ， 它 是 Spark 从 其 开发 
语言 Scala 继承 过 来 的 。 如 果 你 知道 如 何在 Scala 中 使 用 Spark， 即 使 你 平时 主要 还 是 在 
其 他 语言 中 使 用 Spark， 你 还 是 会 更 理解 系统 ， 因 此 会 更 好 地 “用 Spark 思 芳 "。 


学 习 在 Scala 中 用 Spark 还 有 一 个 好 处 。 由 于 Spark 不 同 于 其 他 任何 一 种 数据 分 析 工 具 ， 这 
个 好 处 解释 起 来 会 有 点 儿 困 难 。 如 果 你 曾经 用 过 有 或 Python 从 数据 库 读 取 数据 并 分 析 ， 
肯定 经 历 过 用 一 种 语言 (SQL) 读 取 和 操作 大 量 存储 在 远程 集群 的 数据 ， 然 后 用 另 一 种 语 
言 (Python 或 R) 来 操作 和 展现 存储 在 你 本 地 机 器 上 的 信息 。 如 果 你 一 直 这 么 做 ， 时 间 长 
了 你 可 能 都 不 会 再 想 这 种 方式 有 没有 问题 。 


在 Scala 中 使 用 Spark 做 数据 分 析 ， 你 的 感觉 是 不 太一 样 的 ， 因 为 你 用 同样 的 语言 完成 所 


有 事情 。 借 助 Spark， 你 用 Scala 代码 读 取 集群 上 的 数据 。 接 着 ， 你 把 Scala 代码 发 送 到 集 
群 上 完成 相同 的 转换 ， 这 些 转 换 跟 你 刚刚 对 本 地 数据 所 做 的 转换 完全 一 样 ， 但 数据 却 在 集 
群 上 一 一 这 就 是 精妙 之 处 。 在 同一 个 环境 中 完成 所 有 数据 处 理 和 分 析 ， 不 用 考虑 数据 本 身 
在 何 处 存放 和 在 何 处 处 理 ， 这 简直 妙 不 可 言 。 这 种 感觉 只 有 你 亲身 经 历 才 会 体会 得 到 。 我 
们 也 想 确保 书 中 的 示例 能 够 让 你 感受 到 我 们 首次 使 用 Spark 时 体验 到 的 那 种 魔术 般 的 感觉 。 


2.2 Spark 编程 模型 


Spark 编程 始 于 数据 集 ， 而 数据 集 往往 存放 在 分 布 式 持久 化 存储 之 上 ， 比 如 Hadoop 分 布 式 
文件 系统 HDFS。 编 写 Spark 程序 通常 包括 一 系列 相关 步骤 。 


。 在 输入 数据 集 上 定义 一 组 转换 。 

。 调用 action， 用 以 将 转换 后 的 数据 集 保存 到 持久 存储 上 ， 或 者 把 结果 返回 到 驱动 程序 的 
本 地 内 存 。 

。 运行 本 地 计算 ， 本 地 计算 处 理 分 布 式 计算 的 结果 。 本 地 计算 有 助 于 你 确定 下 一 步 的 转换 


和 action。 


要 想 理 解 Spark， 就 必须 理解 Spark 框架 提供 的 两 种 抽象 : 存储 和 执行 。Spark 优美 地 搭配 
这 两 类 抽象 ， 可 以 将 数据 处 理 管 道中 的 任何 中 间 步 骤 缓 在 内 存 里 以 备 后 用 。 


2.3 ”记录 关联 问题 

本 章 我 们 要 研究 的 主题 在 许多 文献 和 实践 中 被 冠 以 许多 不 同 的 名 称 : 身份 解析 、 记 录 去 
重 、 合 并 - 清除 ， 以 及 列表 清洗 。 想 了 解 这 个 主题 的 方案 和 技术 概况 ， 我 们 需要 参考 这 个 
主题 的 所 有 相关 研究 论文 。 但 是 由 于 不 同文 献 和 实践 中 同一 个 概念 使 用 不 同 的 名 称 ， 我 们 
很 难 找到 所 有 相关 论文 。 在 搞 清楚 数据 清洗 这 个 问题 之 前 ， 我 们 得 请 数据 科学 家 把 与 数据 
清洗 这 个 概念 相关 的 令 人 混 靖 的 许多 不 同名 称 给 去 去 重 。 这 真 让 人 觉得 讽刺 ! 为 了 方便 本 
章 余下 部 分 论述 ， 我 们 把 这 个 问题 称 为 记录 关联 (record linkage)。 


问题 的 大 概 情况 如 下 : 我 们 有 大 量 从 一 个 或 多 个 源 系统 来 的 记录 ， 其 中 有 些 记录 可 能 代表 
相同 的 基础 实体 ， 比 如 客户 、 病 人 、 业 务 地 址 或 事件 。 每 个 实体 有 若干 属性 ， 比 如 姓名 、 
地 址 、 生 日 。 我 们 需要 根据 这 些 属性 找到 那些 代表 相同 实体 的 记录 。 不 笠 的 是 ， 有 些 属 性 
值 有 问题 : 格式 不 一 致 ， 或 有 笔 误 ， 或 信息 缺失 。 如 果 简 单 地 对 这 些 属性 作 相 等 性 测试 ， 
就 会 漏 掉 许 多 重复 记录 。 举 个 例子 ， 我 们 看 看 表 2-1 列 出 的 几 家 商店 的 记录 。 


表 2-1: 记录 关联 问题 的 难点 


名 称 地 址 城 市 州 电话 
Josh’s Coffee Shop 1234 Sunset Boulevard West Hollywood CA (213)-555-1212 
Josh Coffee 1234 Sunset Blvd West Hollywood CA 555-1212 
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名 称 地 址 城 市 州 电话 
Coffee Chain #1234 1400 Sunset Blvd #2 Hollywood CA 206-555-1212 
Coffee Chain Regional Office 1400 Sunset Blvd Suite 2 Hollywood California 206-555-1212 


表 中 前 两 行 其实 指 同一 个 咖啡 店 ,但 由 于 数据 录入 错误 ， 这 两 项 看 起 来 是 在 不 同城 市 
(West Hollywood 和 Hollywood)。 相 反 ， 表 中 后 两 行 其 实 是 同一 家 咖啡 连锁 店 的 不 同业 
务 部 门 ， 尽 管 它们 有 相同 的 地 址 : 地 址 1400 Sunset Blvd 失 是 咖啡 店 的 实际 地 址 ， 另 一 
个 地 址 1400 Sunset Blvd Suite 2 则 是 公司 在 当地 的 一 个 办 公 室 地 点 。 后 两 项 给 的 都 是 公司 
Seattle 总 部 的 官方 电话 号 码 。 


这 个 例子 清楚 地 说 明了 记录 关联 为 什么 很 困难 : 即使 两 组 记录 看 起 来 相似 ， 但 针对 每 一 组 
的 条 目 ， 我 们 确定 它 是 否 重复 的 标准 不 一 样 。 这 种 区 别 我 们 人 类 很 容易 理解 ， 计 算 机 却 
难 了 解 。 


本 


2.4 小 试 牛 刀 : Spark shell 和 SparkContext 


我 们 的 样 倒数 据 集 来 自 加 州 大 学 欧文 分 校 机 器 学 习 资 料 库 (UC Irvine Machine Learning 
Repository) ， 这 个 资料 库 为 研究 和 教学 提供 了 大 量 非 常 好 的 数据 产 ， 这 些 数据 源 非 常 有 意 
义 ， 并 且 是 免费 的 。 我 们 要 分 析 的 数据 集 来 源 于 一 项 记录 关联 研究 ， 这 项 研究 是 德国 一 家 
医院 在 2010 年 完成 的 。 这 个 数据 集 包含 数 百 万 对 病人 记录 ， 每 对 记录 都 根据 不 同 标准 来 
匹配 ， 比 如 病人 姓名 〈 名 字 和 姓氏 )、 地 址 、 生 日 。 每 个 匹配 字段 都 被 赋予 一 个 数值 评分 ， 
范围 为 0.0 到 1.0， 分 值 根据 字符 串 相 似 度 得 出 。 然 后 这 些 数据 交 由 人 工 处 理 ， 标 记 出 哪些 
代表 同一 个 人 哪些 代表 不 同 的 人 。 为 了 保护 病人 隐私 ， 创 建 数据 集 的 每 个 字段 原始 值 被 删 
除了 。 病 人 的 中、 字段 匹配 分 数 、 匹 配对 标示 〈 包 括 匹 配 的 和 不 匹配 的 ) 等 信息 是 公开 
的 ， 可 用 于 记录 关联 研究 。 


首先 我 们 从 资料 库 中 下 载 数据 ， 请 在 命令 行 中 输入 : 


> 


$ mkdir linkage 

$ cd linkage/ 

$ curl -o donation.zip http://bit.ly/1Aoywaq 
$ unzip donation.zip 

$ unzip 'block _*.zip' 


如 果 手 头 有 Hadoop 集群 ， 可 以 先 在 HDFS 上 为 块 数据 创建 一 个 目录 ， 然 后 将 数据 集 文件 
复制 到 HDFS 上 : 


$ hadoop fs -mkdir Linkage 
$ hadoop fs -put bLock_*.csv linkage 


本 书 示例 和 代码 假定 读者 使 用 Spark 1.2.1。 可 以 在 Spark 项 目 网 站 获取 各 个 版 本 的 Spark 
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软件 。 想 了 解 如 何在 集群 或 本 地 机 器 上 安装 Spark 环境 ， 请 参考 Spark 官方 文档 。 


现在 准备 工作 就 绕 ， 可 以 启动 spark-shell 了 。spark-shell 是 Scala 语言 的 一 个 REPL 环 
境 ， 它 同时 针对 Spark 做 了 一 些 扩展 。 如 果 这 是 你 第 一 次 见 到 REPL 这 个 术语 ， 可 以 把 它 
看 成 一 个 类 似 R 的 环境 : 可 以 在 其 中 用 Scala 编程 语言 定义 函数 并 操作 数据 。 


如 果 你 有 一 个 Hadoop 集群 ， 并 且 Hadoop 版 本 支持 YARN， 通 过 为 Spark master 设 定 
yarn-client 参数 值 ， 就 可 以 在 集群 上 启动 Spark 作业 : 


$ spark-shell --master yarn-client 
如 果 你 是 在 自己 的 计算 机 上 运行 示例 ， 可 以 通过 设 定 local[N] 参数 来 启动 本 地 Spark 集 


群 ， 其 中 N 代表 运行 的 线程 数 ， 或 者 用 * 表示 使 用 机 器 上 所 有 可 用 的 核 数 。 比 如 ， 要 在 一 
个 8 核 的 机 器 上 用 8 个 线程 启动 一 个 本 地 集群 ， 可 以 输入 以 下 命令 : 


$ spark-shell --master LocaL[*] 


在 本 地 环境 下 ， 书 中 示例 同样 能 运行 。 不 过 ， 这 时 传 入 的 文件 路 径 是 本 地 路 径 ， 而 不 是 以 
hdfs:// 开头 的 HDFS 路 径 。 注 意 ， 还 需要 通过 cp block_*.csv 将 文件 复制 到 指定 的 本 地 
目录 ， 而 不 是 用 包含 解压 文件 的 目录 ， 因 为 除了 许多 .csv 文件 ， 该 目录 还 包含 其 他 许多 
文件 。 


本 书 其 他 spark-shell 示例 中 不 会 出 现 - -master 参数 ， 但 根据 环境 通常 需要 设 定 该 参数 。 


为 了 Spark shell 能 充分 利用 资源 ， 可 能 还 需要 额外 设 定 一 些 参 数 。 比 如 ， 当 Spark 运行 于 
本 地 master 模式 ， 可 以 用 --driver-memory 2g9， 这 样 就 设 定 了 一 个 本 地 进程 使 用 2 GB 内 
存 。YARN 内 存 设置 会 更 复杂 ， 相 关 的 选项 (如 - -executor-memory 等 参数 ) 设置 可 以 参 
考 Spark on YARN 的 官方 文档 。 


运行 完 上 述 命令 后 ， 可 以 看 到 Spark 在 初始 化 过 程 中 的 日 志 消 息 。 与 此 同时 ， 也 能 看 到 一 
点 儿 ASCII 艺术 体 字样 ， 之 后 又 是 一 段 日 志和 提示 符 : 


Welcome to 
A MS Ey A A 
AN 
/_/._/\,////\\ version 1.2.1 
Using Scala version 2.10.4 
(Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_67) 
Type in expressions to have them evaluated. 
Type :help for more information. 
Spark context available as sc. 
scala> 


如 果 你 是 第 一 次 用 Spark shell (或 类 似 的 任何 Scala REPL) ， 可 以 运行 :help 命令 ， 该 命令 
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列 出 了 shell 的 所 有 命令 
一 时 又 想 不 起 来 的 变 


习 本 书 和 使 用 本 书 源 代码 必需 


除了 关于 :help 的 提示 ，Spark 日 志 消 息 还 显示 “Spark context available as sc"。sc 在 这 
对 SparkContext 的 引用 ， 它 负责 协调 集群 上 Spark 作业 的 执行 。 继 


SC 


。 运 行 :history 或 :h?， 


5 量 或 函数 名 称 。 


运行 :paste， 


res0: org.apache.spark.SparkContext = 
org.apache.spark.SparkContextQDEADBEEF 


可 以 帮 你 找到 之 前 在 某 个 会 话 中 写 过 ， 但 
可 以 帮 你 播 入 剪贴 板 中 的 代码 ， 这 是 学 


文 里 是 
继续 在 命令 行 中 输入 sc: 


REPL 会 以 字符 形式 打印 对 象 ， 对 于 SparkContext 对 象 ， 就 是 名 字 加 上 十 六 进 制 的 对 象 内 
存 地 址 (示例 中 显示 的 DEADBEEF 是 占 位 符 ， 具体 值 每 次 运行 时 都 不 一 样 )。 


法 。 想 要 在 Scala REPL 中 查看 这 些 方法 ， 输 入 变量 名 加 点 


sc.[\t] 


accumulable 
accumulator 
addJar 

appName 

broadcast 
cancelJobGroup 
clearFiles 
clearJobGroup 
defaultMinSplits 
emptyRDD 
getAllPools 
getConf 
getExecutorStorageStatus 
getPersistentRDDs 
getRDDStorageInfo 
hadoopConfiguration 
hadoopRDD 
isInstanceOf 

jars 

master 
newAPIHadoopRDD 
parallelize 
runJob 
setCaLLSite 
setJobDescription 
startTime 
submitJob 
textrile 

union 
whoLeTextFiLLes 


accumulableCollection 
addFile 
addSparkListener 
asInstanceOf 
CanceLALLJobs 
CLearCaLLSite 
CLearJars 
defaultMinpartitions 
defaultParallelism 
files 
getCheckpointDir 
getExecutorMemoryStatus 
getLocalProperty 
getPooLForName 
getSchedulingMode 
hadoopFitLe 
initLocalProperties 
isLocal 

makeRDD 
newAPIHadoopFile 
objectrFile 
runApproximateJob 
sequencerFile 
setCheckpointDir 
setJobGroup 

stop 
tachyonFolderName 
toString 

version 


变量 确实 方便 ， 但 它 的 作用 是 什么 呢 ? SparkContext 


个 对 象 ， 是 对 象 当然 就 有 方 


号 再 加 Tab 键 即 可 : 


SparkContext 有 很 多 方法 ， 但 接 下 来 我 们 使 用 最 多 的 方法 用 于 创建 弹性 分 布 式 数据 集 
(Resilient Distributed Dataset)， 简 称 RDD。RDD 是 Spark 所 提供 的 最 基本 的 抽象 ， 代 表 分 
布 在 集群 中 多 台 机 器 上 的 对 象 集合 。Spark 有 两 种 方法 可 以 创建 RDD: 


用 SparkContext 基于 外 部 数据 源 创建 RDD， 外 部 数据 源 包 括 HDFS 上 的 文件 、 通 过 
JDBC 访问 的 数据 库 表 或 Spark shell 中 创建 的 本 地 对 象 集合 

在 一 个 或 多 个 已 有 RDD 上 执行 转换 操作 来 创建 RDD， 这 些 转换 操作 包括 记录 过 滤 、 对 
具有 相同 键 值 的 记录 做 汇总 、 把 多 个 RDD 关联 在 一 起 等 。 


利用 RDD 可 以 很 方便 地 描述 对 数据 要 进行 的 一 串 小 而 独立 的 计算 步骤 。 


RDD 以 分 区 (partition) 的 形式 分 布 在 集群 中 多 个 机 器 上 ， 每 个 分 区 代表 了 数据 集 的 
一 个 子 集 。 分 区 定义 了 Spark 中 数据 的 并 行 单位 。Spark 框架 并 行 处 理 多 个 分 区 ,一 个 


SparkContext 的 parallelize 方法 。 


要 在 分 布 式 文件 系统 (比如 HDFS) 上 的 文件 或 目录 上 创建 RDD， 可 以 给 textFite 方 


RDD 定义 的 后 续 转 换 操作 (过滤 和 汇总 等 ) 。 


弹性 分 布 数 据 集 (RDD ) 


分 区 内 的 数据 对 象 则 是 顺序 处 理 。 创 建 RDD 最 简单 的 方法 是 在 本 地 对 象 集合 上 调用 


val rdd = sc.parallelize(Array(1, 2, 2, 4), 4) 


rdd: org.apache.spark.rdd.RDD[Int] = ... 


第 一 个 参数 代表 待 并 行 化 的 对 象 集合 ， 第 二 个 参数 代表 分 区 的 个 数 。 当 要 对 一 个 分 区 
内 的 对 象 进行 计算 时 ，Spark 从 驱动 程序 进程 里 获取 对 象 集合 的 一 个 子 集 。 


法 传 入 文件 或 目录 的 名 称 : 

val rdd2 = sc.textFile("hdfs:///some/path.txt") 

rdd2: org.apache.spark.rdd.RDD[String] = ... 
如 果 Spark 运行 在 本 地 模式 ， 可 以 用 textFile 方法 访问 本 地 文件 系统 上 的 路 径 。 如 果 
输入 是 目录 而 不 是 单个 文件 ，Spark 会 把 该 目录 下 所 有 文件 作为 RDD 的 输入 。 最 后 请 


注意 ， 实 际 上 Spark 并 未 将 数据 读 取 到 客户 端 机 器 或 集群 内 存 中 。 当 需要 对 分 区 内 的 
对 象 进行 计算 时 ，Spark 才 会 读 入 输入 文件 的 菜 个 部 分 〈 也 称 “ 切 片 ") ， 然 后 应 用 其 他 


我 们 的 记录 关联 数据 存储 在 一 个 文本 文件 中 ,文件 中 每 行 代表 一 个 样本 。 我 们 用 
SparkContext 的 textFile 方法 来 得 到 RDD 形式 的 数据 引用 : 


val rawblocks = sc.textFile("linkage") 


rawblocks: org.apache.spark.rdd.RDD[String] = ... 


这 儿 行 代码 有 几 点 值得 我 们 注意 。 第 一 ， 我 们 声明 了 一 个 名 叫 rawblocks 的 新 变量 。 从 
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shell 中 可 以 看 出 ，rawblocks 变量 的 类 型 为 RDD[String] ， 而 我 们 并 没有 在 变量 声明 时 指 
出 变量 类 型 。 这 个 功能 在 Scala 编程 语言 中 称 为 类 型 推断 ， 它 为 我 们 写 代 码 时 节省 了 许多 
键盘 输入 。Scala 会 尽 可 能 从 上 下 文中 分 析出 变量 类 型 。 在 我 们 的 示例 中 ，Scala 会 查找 
SparkContext 对 象 textFile 国 数 的 返回 值 类 型 ， 发 现 该 国 数 返回 RDD[String] 类 型 ， 于 是 
就 将 RDD[String] 类 型 赋 给 rawblocks 变量 


只 要 在 Scala 中 定义 新 变量 ， 必 须 在 变量 名 称 前 加 上 val 或 var。 名 称 前 带 val 的 变量 是 不 
可 变 变 量 。 一 旦 给 不 可 变 变量 赋 完 初 值 ， 就 不 能 改变 它 使 它 指向 另 一 个 值 。 而 以 var 开头 
的 变量 则 可 以 改变 其 指向 ， 让 它 指向 同一 类 型 的 不 同 对 象 。 试 试看 如 下 代码 的 执行 情况 : 


rawblocks = sc.textFile("linkage") 
<console>: error: reassignment to val 


var varblocks = sc.textFile("linkage") 
varblocks = sc.textFile("linkage") 


试图 将 关联 数据 重新 赋 给 rawblocks val 变量 会 报错 ， 但 重新 给 varblocks var 变量 赋值 则 
没有 问题 。 在 Scala REPL 中 ， 对 val 变量 有 个 例外 ， 因 为 Scala REPL 人 允许 我 们 重新 声明 
相同 的 不 可 变 变 量 ， 请 看 代码 : 


val rawblocks 
val rawblocks 


sc.textFile("linakge") 
sc.textFile("linkage") 


示例 中 第 二 次 声明 rawblocks val 变量 并 没有 报错 。 这 在 常规 Scala 代码 中 是 非法 的 ， 但 在 
shell 中 却 没 有 问题 ， 本 书 的 许多 例子 中 会 用 到 该 功能 。 


REPL 与 编译 


除了 交互 式 shell，Spark 也 支持 编译 程序 。 我 们 通常 推荐 使 用 Maven 来 编译 程序 和 管 
理 依赖 关系 。 本 书 在 GitHub 的 资料 库 的 simplesparkproject/ 目录 下 包含 了 一 个 完整 的 
Maven 工程 ， 你 可 以 用 它 作为 开端 。 


现在 你 有 两 个 选择 : shell 和 编译 程序 ， 但 测试 和 构建 数据 处 理 程序 时 该 选 哪个 呢 ? 通 
常 在 初始 阶段 工作 可 能 全 部 用 REPL 完成 。REPL 可 以 加 快 原型 开发 ， 使 选 代 更 快 ， 
让 你 的 想法 很 快 能 看 到 结果 。 但 随 着 程序 越 来 越 大 ， 在 一 个 文件 中 维护 大 量 代码 就 变 
得 很 策 抽 了 ， 这 时 解释 Scala 程序 也 要 消耗 更 多 时 间 。 如 果 数 据 量 巨 大 ， 情 况 会 更 糟 ， 
经 常会 出 现 一 个 操作 导致 Spark 应 用 前 溃 或 SparkContext 不 可 用 。 如 果 发 生 这 种 情 
况 ， 意 味 着 所 有 的 工作 和 输入 的 代码 都 丢失 了 。 这 时 我 们 往往 应 该 采用 混合 模式 。 最 
前 面 的 开发 工作 在 REPL 里 完成 ， 随 着 代码 逐渐 成 熟 ， 将 代码 移 到 编译 库 里 。 可 以 在 
spark-shell 中 引用 已 编译 好 的 JAR， 只 要 给 spark-shell 设置 --jars 参数 即 可 。 这 样 
的 话 ， 如 果 使 用 得 当 ， 就 不 用 频 演 重新 编译 JAR， 同 时 REPL 可 以 支持 快速 代码 迭代 
和 逐步 成 熟 方 式 。 


如 何 引 用 外 部 的 Java 和 Scala 类 库 呢 ? 要 编译 引用 了 外 部 类 库 的 代码 ， 需 要 在 工程 的 
Maven 配置 文件 (pom.xml) 中 指定 所 需 的 类 库 。 要 运行 依赖 外 部 类 库 的 代码 ， 需 要 
在 Spark 进程 中 通过 classpath 将 所 需 类 库 的 JAR 文件 包含 进来 。 为 此 一 种 好 的 做 法 
是 使 用 Maven 来 打包 JAR， 使 生成 的 JAR 包含 应 用 程序 的 所 有 依赖 文件 。 接 着 在 启动 
shell 时 通过 --jars 属性 引用 该 JAR。 这 种 方法 的 优点 是 依赖 只 需要 在 Maven 的 pom. 
xml 中 指定 一 次 即 可 。 如 何 进行 设置 ， 请 参考 本 书 GitHub 资料 库 simplesparkproject/ 
目录 。 


同时 可 以 用 SPARK-5341 跟踪 如 下 功能 的 开发 进度 : 在 spark-shell 里 直接 指定 
Maven 资料 库 ， 从 Maven 资料 库 获 取 的 JAR 自动 设置 在 Spark 的 classpath 里 。 


2.5 把 数据 从 集群 上 获取 到 客户 端 
RDD 有 许多 方法 ， 我 们 可 以 用 这 些 方法 从 集群 读 取 数 据 到 客户 端 机 器 上 的 Scala REPL 中 。 
其 中 最 简单 的 方法 可 能 就 是 first 了 ， 该 方法 向 客户 端 返回 RDD 的 第 一 个 元 素 : 


rawbLocks .first 
ES: String = "id_1","id 2","cmp_fname_c1","cmp_fname_c2",... 
first 方法 可 用 于 对 数据 集 做 常规 检查 ， 但 通常 我 们 更 想 返 回 更 多 样 例 数据 供 客户 端 分 析 。 


如 果 知 道 RDD 只 包含 少量 记录 ， 可 以 用 collect 方法 向 客户 返回 一 个 包含 所 有 RDD 内 容 
的 数组 。 因 为 我 们 还 不 知道 这 个 关联 数据 集 有 多 大 ， 所 以 暂时 不 那么 做 了 。 


还 可 以 用 take 方法 ， 这 个 方法 在 first 和 collect 之 间 做 了 一 些 折 瑞 ， 可 以 向 客户 端 返回 
一 个 包含 指定 数量 记录 的 数组 。 我 们 来 看 看 如 何 使 用 take 方法 获取 记录 关联 数据 集 的 前 
10 行 记录 : 


val head = rawblocks.take(10) 
head: Array[String] = Array("id_1","id 2","cmp_fname_c1",... 
head. Length 


res: Int = 10 
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动作 
创建 RDD 的 动作 (action) 并 不 会 导致 集群 执行 分 布 式 计算 。 相 反 ，RDD 只 是 定义 了 
作为 计算 过 程 中 间 步 骤 的 罗 辑 数据 集 。 只 有 调用 RDD 上 的 action 时 分 布 式 计算 才 会 
执行 。 举 个 例子 ，count 动作 返回 RDD 中 对 象 的 个 数 : 
rdd.count() 
14/09/10 17:36:09 INFO SparkContext: Starting job: count ... 


14/09/10 17:36:09 INFO SparkContext: Job finished: count ... 
res0: Long = 4 


collect 动作 返回 一 个 包含 RDD 中 所 有 对 象 的 Array (数组 ) : 


rdd.collect() 

14/09/29 00:58:09 INFO SparkContext: Starting job: collect ... 
14/09/29 00:58:09 INFO SparkContext: Job finished: collect ... 
res2: Array[(Int，Int)] = Array((4,1), (1,1), (2,2)) 


动作 不 一 定向 本 地 进程 返回 结果 。saveAsTextFile 动作 将 RDD 的 内 容 保 存 到 持久 化 存 
储 (比如 HDFS) 上 : 

rdd.saveAsTextFile("hdfs:///user/ds/mynumbers") 

14/09/29 00:38:47 INFO SparkContext: Starting job: 

saveAsTextFile ... 


14/09/29 00:38:49 INFO SparkContext: Job finished: 
saveAsTextFile ... 


该 动作 创建 一 个 目录 并 为 每 个 分 区 输出 一 个 文件 。 切 换 到 Spark shell 外 面 的 命令 行 ， 
执行 如 下 操作 : 


hadoop fs -ls /user/ds/mynumbers 


-rw-r--r-- 3 ds supergroup 0 2014-09-29 00:38 myfile.txt/_SUCCESS 
-rw-r--r-- 3 ds supergroup 4 2014-09-29 00:38 myfile.txt/part-00000 
-rw-r--r-- 3 ds supergroup 4 2014-09-29 00:38 myfile.txt/part-00001 


记 住 ，textFile 接受 包含 一 个 文本 文件 的 目录 作为 输入 ， 这 意味 将 来 的 Spark 作业 可 
以 把 mynumbers 作为 其 输入 目录 。 


Scala REPL 返回 的 数据 原始 形式 可 能 有 点 儿 难 以 读 懂 ， 特 别 是 对 于 包含 了 许多 元 素 的 数组 
更 是 如 此 。 为 了 更 容易 读 懂 数组 的 内 容 ， 我 们 可 以 用 foreach 方法 并 结合 printtn 来 打印 
出 数组 中 的 每 个 值 ， 并 且 每 一 行 打印 一 个 值 : 


head.foreach(printtLn) 


"id_1","id 2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1","cmp_lname_c2", 

"cmp_sex","cmp_bd","cmp_bm","cmp_by","cmp_plz","is match" 
37291,53113,0.833333333333333,?,1,?,1,1,1,1,0,TRUE 
39086,47614,1,?,1,?,1,1,1,1,1,TRUE 


70031,70237,1,?,1,?,1,1,1,1,1,TRUE 


84795,97439,1,?,1,?,1,1,1,1,1,TRUE 
36950,42116,1,?,1,1,1,1,1,1,1,TRUE 
42413,48491,1,?,1,?,1,1,1,1,1,TRUE 
25965,64753,1,?,1,?,1,1,1,1,1,TRUE 
49451,90407,1,?,1,?,1,1,1,1,0,TRUE 
39932,40902,1,?,1,?,1,1,1,1,1,TRUE 


本 书 经 常用 到 foreach(println) 模式 。 它 是 一 个 常见 的 函数 式 编程 模式 把 函数 printtn 
作为 参数 传递 给 另 一 个 函数 以 执行 某 个 动作 。 用 过 RR 的 数据 科学 家 很 熟悉 这 种 编程 风格 。 
为 了 在 处 理 向 量 和 列表 时 避免 循环 ， 他 们 习惯 用 高 阶 函数 ， 比 如 apply 和 LappLy。Scala 的 
集合 与 R 的 列表 和 向 量 类 似 ， 我 们 通常 希望 少 用 for 循环 ， 而 在 处 理 集合 元 素 时 采用 高 阶 


很 快 我 们 就 发 现 数据 有 几 个 问题 ， 这 些 问 题 必 须 在 开始 对 数据 分 析 前 解决 好 。 首 先 ，CSV 
文件 有 一 个 标题 行 需要 过 滤 掉 ， 以 免 影响 后 续 分 析 。 我 们 可 以 将 标题 行 中 出 现 的 "id_1" 字 
符 串 作为 过 滤 条 件 ， 编 写 一 个 简单 的 Scala 函数 来 测试 一 行 记录 中 是 否 包 含 该 字符 串 ， 代 
人 码 如 下 : 


def isHeader(line: String) = line.contains("id_1") 
isHeader: (Line: String)Boolean 


和 Python 类 似 ，Scala 声明 函数 用 关键 字 def。 和 Python 不 同 ， 我 们 必须 为 函数 指定 参数 
类 型 : 在 示例 中 ， 我 们 指明 tine 参数 是 String。 国 数 体 部 分 调用 String 类 的 contatns 方 
法 ， 用 于 测试 字符 串 中 是 否 出 现 "id_1" 字符 序列 ， 等 号 后 的 部 分 都 是 函数 体 的 内 容 。 虽 然 
我 们 必须 指定 Line 参数 的 类 型 ， 但 是 没 必要 指定 函数 的 返回 类 型 ， 原 因 在 于 Scala 编译 器 
能 根据 String 类 的 信息 和 String 类 contains 方法 返回 true 或 false 这 一 事实 来 推断 出 函 
数 的 返回 类 型 。 


有 时 候 我 们 希望 能 显 式 地 指明 函数 返回 类 型 ， 特 别 是 碰 到 函数 体 很 长 、 代 码 复 杂 并 且 包 含 
多 个 return 语句 的 情况 。 这 时 候 ，Scala 编译 器 不 一 定 能 推断 出 函数 的 返回 类 型 。 为 了 函 
数 代 码 可 读 性 更 好 ， 也 可 以 指明 函数 的 返回 类 型 。 这 样 他 人 在 阅读 代码 的 时 候 ， 就 不 必 重 
新 把 整个 国 数 读 一 志 了 。 可 以 紧 跟 在 参数 列表 后 面 声明 返回 类 型 ， 示 例如 下 : 


def isHeader(line: String): Boolean = { 
line.contains("id_1") 


isHeader: (Line: String)Boolean 


通过 用 Scala 的 Array 类 的 filter 方 法 打印 出 结果 ， 可 以 在 head 数组 上 测试 新 编写 的 
Scala 国 数 : 


head.fiLLter(LsHeader).foreach(printLn) 


"id_1","id 2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1",... 
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看 起 来 我 们 的 isHeader 方法 没什么 问题 通过 filter 方法 将 isheader 作用 在 head 数组 
上 ， 返 回 的 唯一 结果 是 标题 行 本 身 。 当 然 我 们 甚 实 想 要 的 是 所 有 非 标题 行 。 为 了 完成 这 个 
目标 ，Scala 有 几 各 方法。 第 一 个 就 是 利用 Array 类 的 filterNot 方法 : 


head.filterNot(isHeader).length 


res: Int = 9 


还 可 以 利用 Scala 对 匿名 函数 的 支持 ， 在 filter 函数 里 面 对 isHeader 函数 取 非 : 
head.filter(x => !isHeader(x)).length 
res: Int = 9 
Scala 的 匿名 函数 有 点 儿 类 似 Python 的 lambda 函数 。 在 示例 代码 中 我 们 定义 了 一 个 名 为 x 
的 参数 并 把 它 传 给 isHeader 函数 ， 再 对 isHeader 函数 的 返回 值 取 非 。 请 注意 ， 样 例 代码 
中 没 必要 指定 x 变量 的 类 型 信息 ，Scala 编译 器 能 够 根据 head 的 类 型 是 Array[String] 推 
断 出 x 是 String 类 。 


Scala 程序 员 最 讨厌 的 就 是 键盘 输入 。 因 此 Scala 设计 了 许多 小 功能 来 减少 输入 ， 比 如 在 
名 函数 的 定义 中 ， 为 了 定义 匿名 函数 并 给 参数 指定 名 称 ， 只 输入 了 字符 x=>。 但 像 这 么 简 
单 的 匿名 函数 ， 其 至 都 没 必 要 这 么 做 : Scala 允许 使 用 下 划 线 (_) 表示 匿名 函数 的 参数 ， 
因此 我 们 可 以 少 输 入 4 个 字符 : 


六 


head.filter(!isHeader(_)).length 
res: Int = 9 


有 时 这 种 缩写 语法 使 代码 更 易 阅 读 ， 因 为 它 省 略 了 明显 多 余 的 标识 符 ， 但 有 时 也 会 使 代码 
更 难 懂 。 代 码 到 底 是 更 易 懂 还 是 更 难 届 ,这 就 要 靠 我 们 自己 判断 了 。 


人 二 LU 人 全 了 

2.6 ”把 代码 从 客户 端 发 送 到 集群 

刚才 我 们 见识 了 Scala 语言 定义 和 运行 国 数 的 多 种 方式 。 我 们 执行 的 代码 都 作用 在 head 数 
组 中 的 数据 上 ， 这 些 数据 都 在 客户 端 机 器 上 。 现 在 ， 我 们 打算 把 在 Spark 里 把 刚 写 好 的 代 
码 应 用 到 关联 记录 数据 集 RDD rawptocks， 该 数据 集 在 集群 上 的 ， 记 录 有 数 百 万 条 。 


下 


下 是 一 段 示例 代码 ， 是 不 是 觉得 特别 熟悉 ? 


val noheader = rawblocks.filter(x => !isHeader(x)) 


用 于 过 滤 集 群 上 整个 数据 集 的 语法 和 过 滤 本 地 机 器 上 的 head 数组 的 语法 一 模 一 样 。 可 以 用 
noheader 这 个 RDD 来 验证 过 滤 规 则 是 否 正确 : 


noheader .first 


res: String = 37291,53113,0.833333333333333,?,1,?,1,1,1,1,0,TRUE 


这 太 强 大 了 ! 它 意 味 着 我 们 可 以 先 从 集群 采样 得 到 小 数据 集 ， 在 小 数据 集 上 开发 和 调试 
数据 处 理 代 码 ， 等 一 切 就 绪 后 把 代码 发 送 到 集群 上 处 理 完 整 的 数据 集 就 可 以 了 。 最 厉害 
的 是 ， 我 们 从 头 到 尾 都 不 用 离开 shell 界面 。 除 了 Spark， 还 真 没有 哪 种 工具 能 给 你 这 种 
体验 。 


在 后 面 儿 节 中 ， 我 们 将 运用 这 种 本 地 开发 加 测试 和 集群 运算 的 方式 ， 来 展示 更 多 处 理 和 分 
析 记 录 关 联 数据 的 技术 。 如 果 你 现在 想 停 下 来 喝 口 水 ， 感 叹 一 下 Spark 这 个 新 世界 的 美妙 ， 
我 们 当然 能 理解 。 


2.7 用 元 组 和 case class 对 数据 进行 结构 化 


刚才 head 数组 和 noheader RDD 中 的 记录 都 是 喜 号 分 隔 的 字符 串 。 为 了 更 容易 分 析 这 些 数 
据 ， 我 们 需要 把 字符 串 解 析 成 结构 化 的 格式 ， 把 不 同 字段 转化 成 正确 的 数据 类 型 ， 比 如 整 
数 或 双 精 度 浮 点 数 。 

如 果 我 们 看 看 head 数组 的 内 容 (包括 标题 行 和 记录 本 身 )， 会 发 现 数据 有 如 下 结构 。 

。 前 两 个 字段 是 整数 型 ID ， 代 表 记 录 中 匹配 的 两 个 病人 。 

。 后 面 九 个 值 是 双 精 度 浮 点 数 ， 代 表 病 人 记录 中 不 同 字段 (姓名 、 生 日 、 地 址 ) 的 匹配 分 


值 (可 能 包含 数据 丢失 的 情况 )。 
。 最 后 一 个 字段 是 布尔 型 (TRUE 或 FALSE) ， 代 表 该 行 病 人 记录 对 是 否 匹 配 。 


和 Python 一 样 ，Scala 有 内 置 tuple 类 型 ， 可 用 于 快速 创建 二 元 组 、 三 元 组 和 更 多 不 同类 
型 数值 的 集合 ， 是 一 种 表示 记录 的 简单 方法 。 现 在 我 们 解析 每 行 记录 ， 将 其 变 为 包含 4 个 
值 的 元 组 : 第 一 个 病人 的 整数 ID、 第 二 个 病人 的 整数 ID、 包含 九 个 双 精 度 浮 点 数 的 一 个 
数组 (NaN 值 代表 数值 缺失 ) 和 表示 是 否 匹配 的 布尔 型 字段 。 


与 Python 不 同 ，Scala 没有 内 置 方法 解析 逗号 分 隔 的 字符 串 ， 因 此 我 们 还 得 干 点 儿 体力 活 。 
我 们 可 以 用 Scala REPL 试 试 我 们 的 解析 代码 。 首 先 从 head 数组 中 取出 一 条 记录 : 


val line = head(5) 
val pieces = line.split(',') 


pecs Array[String] = Array(36950, 42116, 1, ?,... 
注意 访问 head 数组 元 素 时 用 圆 括号 而 不 是 方 括号 。Scala 语言 访问 数组 元 素 是 函数 调用 ， 


不 是 什么 特殊 操作 符 。Scala 允许 在 类 里 定义 一 个 特殊 函数 appLy， 当 把 对 象 当 作 国 数 处 理 
的 时 候 ， 这 个 apply 函数 就 会 被 调用 ， 所 以 head(5) 等 同 于 head.apply(5)。 
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我 们 用 Java String 类 的 spLit 函数 把 Line 中 不 同 部 分 拆 开 ， 并 且 返 回 Array[String] 类 型 
的 数组 pieces。 现 在 用 Scala 的 类 型 转化 函数 把 pieces 的 单个 元 素 转 换 成 合适 的 类 型 : 


val id1 = pieces(0) .toInt 
val id2 = pieces(1) .toInt 
val matched = pieces(11).toBoolean 


只 要 我 们 知道 相应 的 toxYz 转换 函数 ， 转 换 变 量 id1、id2 和 布尔 类 型 的 变量 matched 就 简 
单 了 。 不 像 我 们 之 前 用 到 的 contaiins 方法 和 split 方法 ，toInt 和 toBoolean 方法 并 不 是 
由 Java 的 String 类 定义 的 ， 而 是 由 Scala 的 String0ps 类 定义 的 。 这 里 用 到 了 Scala 更 为 
强大 (也 可 以 说 有 点 儿 危 险 ) 的 特性 : 隐 式 类 型 转换 。 隐 式 类 型 转换 的 工作 原理 如 下 : 当 
调用 Scala 对 象 的 方法 时 ， 如 果 在 定义 该 对 象 的 类 中 找 不 到 方法 定义 ，Scala 编译 器 就 将 该 
对 象 转换 成 有 相应 方法 定义 的 类 的 实例 。 在 我 们 的 示例 中 ， 编 译 器 会 发 现 Java 的 String 
类 没有 定义 toInt 方法 而 String0ps 有 ， 既 然 String0ps 类 定义 了 toInt 方法 ， 那 么 就 可 以 
将 String 类 的 实例 转换 成 Stringops 类 的 实例 。 这 时 编译 器 就 悄悄 地 把 String 对 象 转换 
成 String0ps 对 象 ， 然 后 在 新 对 象 上 调用 toInt 方法 。 


Scala 类 库 的 开发 人 员 (包括 Spark 核心 开发 人 员 ) 非常 喜欢 隐 式 类 型 转换 。 有 了 隐 含 类 型 
转换 ， 他 们 就 可 以 增强 像 String 这 样 的 核心 类 的 功能 ， 而 如 果 没 有 隐 式 类 型 转换 ，String 
类 是 没 法 修改 的 。 但 对 于 这 些 工具 的 用 户 而 言 ， 隐 式 类 型 转换 则 有 好 有 坏 ， 因 为 它 使 得 人 
们 很 难 搞 清 楚 一 个 方法 到 底 是 在 哪儿 定义 的 。 不 管 怎 样 ， 我 们 的 示例 中 将 多 次 出 现 隐 式 类 
型 转换 ， 所 以 还 是 早点 儿 习 惯 它 为 好 。 


我 们 还 需要 转换 双 精 度 浮 点 数 类 型 的 九 个 匹配 分 值 字段 。 要 一 次 完成 全 部 转换 ， 可 以 先 用 
Scala Array 类 的 slice 方法 提取 一 部 分 数组 元 素 ， 然 后 调用 高 阶 函 数 map 把 slice 中 每 个 
元 素 的 类 型 从 string 转换 为 Double: 


val rawscores = pieces.slice(2, 11) 
rawscores.map(s => s.toDouble) 


java. lang.NumberFormatException: For input string: "?" 
at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:1241) 
at java.lang.Double.parseDouble(Double.java:540) 


哎呀 ， 忘 了 rawscores 数组 可 能 有 ? 了 ，String0ps 的 toDouble 方法 不 知道 怎样 把 ? 转 成 
Double。 我 们 来 写 一 个 函数 ， 它 在 遇 到 ? 时 返回 NaN 值 ， 然 后 在 rawscores 数组 上 运行 这 
个 函数 : 


def toDouble(s: String) = { 
if ("?".equals(s)) Double.NaN else s.toDouble 
} 
val scores = rawscores.map(toDouble) 
scores: Array[Double] = Array(1.0, NaN, 1.0, 1.0, 


看 ， 现 在 好 多 了 ! 接着 把 所 有 解析 代码 合并 到 一 个 国 数 ， 在 一 个 元 组 中 返回 所 有 解析 好 
的 值 : 


TI 


def parse(line: String) = { 
val pieces = line.split(',') 
val id1 = pieces(0).toInt 
val id2 = pieces(1).toInt 
val scores = pieces.slice(2, 11).map(toDouble) 
val matched = pieces(11).toBoolean 
(idi, id2, scores, matched) 
} 


val tup = parse(line) 


从 元 组 中 获取 单个 字段 的 值 ， 可 以 用 下 标 函 数 ， 从 _1 开始 ， 或 者 用 productELement 方法 ， 
它 是 从 9 开始 计数 的 。 也 可 以 用 productArity 方法 得 到 元 组 的 大 小 : 


tup._1 
tup.productELement(0) 
tup.productArity 


Scala 创建 元 组 非常 简单 方便 ， 但 通过 下 标 而 不 是 有 意义 的 名 称 来 访问 记录 元 素 会 让 代码 
很 难 理解 。 其 实 我 们 希望 能 创建 一 个 简单 的 记录 类 型 ， 它 可 以 根据 名 称 而 不 是 用 下 标 访问 
字段 。 幸 运 的 是 ，Scala 提供 了 这 样 的 语法 ， 可 以 方便 地 创建 这 种 记录 ， 这 就 是 case class。 
case class 是 不 可 变 类 的 一 种 简单 类 型 ， 它 非常 好 用 ， 内 置 了 所 有 Java 类 的 基本 方法 ， 比 
如 toString、equals 和 hashCode。 我 们 来 试 试 为 记录 关联 数据 定义 一 个 case class: 


case class MatchData(id1: Int, id2: Int, 
scores: Array[Double], matched: Boolean) 


现在 修改 parse 方法 以 返回 MatchData 实例 ， 这 个 实例 是 case class 而 不 再 是 元 组 : 


def parse(line: String) = { 
val pieces = line.split(',') 
val id1 = pieces(0).toInt 
val id2 = pieces(1).toInt 
val scores = pieces.slice(2, 11).map(toDouble) 
val matched = pieces(11).toBoolean 
MatchData(id1i, id2, scores, matched) 


val md = parse(Line) 


这 里 要 注意 两 点 : 一 ， 创 建 case class 时 没 必要 在 MatchData 前 写 上 关键 字 new (再 次 说 明 
Scala 开发 人 员 非 常 讨 厌 散 键盘 ) ， 二 ，MatchData 类 有 个 内 置 的 tostring 方法 实现 ， 除 了 
scores 数组 字段 外 ， 这 个 方法 在 其 他 字段 上 的 表现 都 还 不 错 。 


现在 通过 名 字 来 访问 MatchData 的 字段 : 


md .matched 
md.id1 
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现在 完成 了 在 单条 记录 上 测试 解析 国 数 ， 接 下 来 把 它 用 在 head 数组 的 所 有 元 素 上 (标题 行 
除外 ) : 


val mds = head.filter(x => !isHeader(x)).map(x => parse(x)) 


很 好 ， 通 过 了 。 现 在 将 解析 函数 用 于 集群 数据 ， 在 noheader RDD 上 调用 map 函数 : 


val parsed = noheader .map(Line => parse(Line)) 


记 住 ， 和 我 们 本 地 生成 的 nds 数组 不 同 ，parse 函数 并 没有 实际 应 用 到 集群 数据 上 。 当 在 
parsed 这 个 RDD 上 执行 某 个 需要 输出 的 调用 时 ， 就 会 用 parse 函数 把 noheader RDD 的 每 
个 string 转换 成 MatchData 类 的 实例 。 如 果 在 parsed RDD 上 执行 另 一 个 调用 以 产生 不 同 
输出 ，parse 函数 会 在 输入 数据 上 再 执行 一 遍 。 


这 没有 充分 利用 集群 资源 。 数 据 一 旦 解析 好 ， 我 们 想 以 解析 格式 把 数据 存 到 集群 上 ， 这 


样 就 不 需要 每 次 遇 到 新 问题 时 都 重新 解析 。Spark 支持 这 种 使 用 场景 ， 通 过 在 实例 上 调用 
cache 方法 ， 可 以 指示 在 内 存 里 缓存 某 个 RDD。 现 在 用 parsed 这 个 RDD 实验 一 下 : 


parsed.cache() 


缓存 
虽然 默认 情况 下 RDD 的 内 容 是 临时 的 ， 但 Spark 提供 了 在 RDD 中 持久 化 数据 的 机 制 。 
第 一 次 调用 动作 并 计算 出 RDD 内 容 后 ，RDD 的 内 容 可 以 存储 在 集群 的 内 存 或 磁盘 上 。 
这 样 下 一 次 需要 调用 依赖 该 RDD 的 动作 时 ， 就 不 需要 从 依赖 关系 中 重新 计算 RDD， 
数据 可 以 从 缓存 分 区 中 直接 返回 : 

Cached.cache() 


cached.count() 
cached. take(10) 


在 上 述 代码 中 ,cache 方法 调用 指示 在 下 次 计算 RDD 后 ， 要 把 RDD 存储 起 来 。 调 用 
count 会 导致 第 一 次 计算 RDD。 采 取 (take) 这 个 动作 返回 一 个 本 地 的 Array， 包 含 
RDD 的 前 10 个 元 素 。 但 调用 take 时 ,访问 的 是 cached 已 经 缓存 好 的 元 素 ， 而 不 是 
从 cached 的 依赖 关系 中 重新 计算 出 来 的 。 

Spark 为 持久 化 RDD 定义 了 几 种 不 同 的 机 制 ， 用 不 同 的 StorageLevet 值 表 示 。rdd. 
cache() 是 rdd.persist(StorageLevel.MEMORY) 的 简写 ， 它 将 RDD 存储 为 未 序列 化 
的 Java 对 象 。 当 Spark 估计 内 存 不 够 存放 一 个 分 区 时 ， 它 干脆 就 不 在 内 存 中 存放 该 分 
区 ,这 样 在 下 次 需要 时 就 必须 重新 计算 。 在 对 象 需要 频繁 访问 或 低 迁 访问 时 适合 使 用 
StorageLevel.MEMORY， 因 为 它 可 以 避免 序列 化 的 开销 。 相 比 其 他 选项 ，StorageLevel. 
MEMORY 的 问题 是 要 占用 更 大 的 内 存 空 间 。 另 外 ， 大 量 小 对 象 会 对 Java 的 垃圾 回收 造成 
压力 ， 会 导致 程序 停顿 和 常见 的 速度 缓慢 问题 。 


Spark 也 提供 了 MEMORY_SER 的 存储 级 别 ， 用 于 在 内 存 中 分 配 大 字 节 缓冲 区 以 存储 RDD 
序列 化 内 容 。 如 果 使 用 得 当 ( 稍 后 会 详细 介绍 )， 序 列 化 数据 占用 的 空间 比 未 经 序列 化 
的 数据 占用 的 空间 往往 要 少 两 到 五 倍 。 

Spark 也 可 以 用 磁盘 来 缓存 RDD。 存 储 级 别 MEMORY_AND_DISK 和 MEMORY_AND_DISK_SER 
分 别 类 似 于 MEMORY 和 MEMORY_SER。 对 于 MEMORY 和 MEMORY_SER， 如 果 一 个 分 区 在 内 存 
里 放 不 下 ， 整 个 分 区 都 不 会 放 在 内 存 。 对 于 MEMORY_AND_DISK 和 MEMORY_AND_DISK_SER ， 
如 果 分 区 在 内 存 里 放 不 下 ，Spark 会 将 其 溢 写 到 磁盘 上 。 

什么 时 候 该 缓存 数据 是 门 艺 术 ， 这 通常 需要 对 空间 和 速度 进行 权衡 ， 垃 圾 回收 开销 的 
问题 也 会 时 不 时 让 情况 更 复杂 。 一 般 情况 下 ， 如 果 多 个 动作 需要 用 到 某 个 RDD， 而 它 
的 计算 代价 又 很 高 ， 那 么 就 应 该 把 这 个 RDD 缓存 起 来 。 


2.8 聚合 


到 目前 为 止 ， 本 章 主要 讲述 了 用 Scala 和 Spark 处 理 数据 的 方法 ， 这 些 方法 对 本 地 数据 和 和 集 
群 数据 是 相似 的 。 本 节 我 们 来 看 看 Scala 和 Spark API 的 一 些 不 同 之 处 ， 特 别 是 在 数据 分 组 
和 聚合 方面 。 大 多 数 不 同 之 处 在 于 效率 : 相 比 数据 在 单 台 机 器 的 内 存 中 就 能 容纳 的 情况 ， 
大 规模 的 数据 集 分 布 在 多 台 机 器 上 ， 对 其 进行 聚合 时 ， 我 们 更 为 担心 数据 传输 的 效率 。 


为 了 说 明 这 种 差异 ， 我 们 用 Spark 分 别 在 本 地 客户 端 和 集群 上 对 MatchData 执行 简单 的 聚 
合 操作 ， 目 的 是 计算 匹配 和 不 匹配 的 记录 数量 。 对 于 mds 数组 中 的 本 地 MatchData 记录 ， 
我 们 用 groupBy 方法 来 创建 一 个 Scala Map[BooLean，Array[MatchData]]， 其 中 键 值 基于 
MatchData 类 的 字段 matched: 


val grouped = mds.groupBy(md => md.matched) 

得 到 grouped 变量 中 的 值 以 后 ， 就 可 以 通过 在 grouped 上 调用 mapValues 方法 得 到 计数 。 

mapValues 方法 和 map 方法 类 似 ， 但 作用 在 Map 对 象 中 的 值 并 得 出 每 个 数组 的 大 小 : 
grouped.mapValues(x => x.size).foreach(println) 

就 像 我 们 看 到 的 一 样 ， 本 地 数据 中 的 条 目 都 是 匹配 的 ， 因 此 map 返回 的 唯一 条 目 是 元 组 


(true,9)。 当 然 ， 本 地 数据 只 是 整个 记录 关联 数据 集中 的 一 部 分 ， 当 这 个 分 组 操作 运行 在 
整个 数据 上 时 ， 我 们 期 望 能 找到 很 多 不 匹配 的 记录 。 


对 集群 数据 进行 聚合 时 ， 一 定 要 时 刻 记 住 我 们 分 析 的 数据 是 存放 在 多 台 机 器 上 的 ， 并 且 聚 
合 需要 通过 连接 机 器 的 网 络 来 移动 数据 。 跨 网 络 移动 数据 需要 许多 计算 资源 ， 包 括 确定 每 
条 记录 要 传 到 哪些 服务 器 、 数 据 序列 化 、 数 据 压缩 ， 通 过 网 络 发 送 数据 、 解 压缩 ， 接 着 序 
列 化 结果 ， 最 后 在 聚合 后 的 数据 上 执行 运算 。 为 了 提高 速度 ， 我 们 需要 尽 可 能 少 地 移动 数 
据 。 在 聚合 前 能 过 着 掉 的 数据 越 多 ， 就 能 越 快 得 到 问题 的 答案 。 
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2.9 创建 直方 图 


先 来 试 试 创建 一 个 简单 的 直方 图 ， 用 它 来 算 一 下 parsed 中 的 MatchData 记录 有 多 少 matched 
字段 值 为 true 或 fatse。 寿 运 的 是 RDD[T] 类 已 经 定义 了 一 个 名 为 countByValue 的 动作 ， 该 
动作 对 于 计数 类 运算 效率 非常 高 ， 它 向 客户 端 返回 Map[T,Long] 类 型 的 结果 。 对 MatchData 
记录 中 的 matched 字段 映射 调用 countByValue 会 执行 一 个 Spark 作业 ， 并 向 客户 端 返回 结果 : 


val matchCounts = parsed.map(md => md.matched).countByVaLue() 


在 Spark 客户 端 中 创建 直方 图 或 进行 其 他 类 似 的 值 分 组 时 ， 特 别 是 在 涉及 的 类 型 变量 有 很 
多 值 的 情况 下 ， 我 们 很 想 用 不 同方 式 对 直方 图 进行 排序 ， 比 如 按键 的 字母 顺序 排序 或 按 值 
的 个 数 排序 ， 而 且 排 序 可 以 是 升序 也 可 以 是 降序 。 虽 然 matchCounts 这 个 Map 包含 的 键 只 
有 true 和 fatse， 但 我 们 还 是 想 简单 看 一 下 怎样 以 不 同方 式 对 内 容 进 行 排序 。 


Scala 的 Map 类 没有 提供 根据 内 容 的 键 或 值 排 序 的 方法 ， 但 我 们 可 以 将 Map 转换 成 Scala 的 
Seq 类 型 ， 而 Seq 类 支持 排序 。Scala 的 Seq 类 和 Java 的 List 接口 类 似 ， 都 是 可 迭代 集合 ， 
即 具 有 确定 的 长 度 并 且 可 以 根据 下 标 来 查找 值 : 


val matchCountsSeq = matchCounts .toSeq 


Scala 集合 


Scala 集合 类 库 很 庞大 ， 和 包括 list、set、map 和 array。 利 用 toList、toSet 和 toArray 
方法 ， 各 种 集合 类 型 可 以 方便 地 相互 转换 。 


matchCountsSeq 序列 由 (String，Long) 类 型 的 元 素 组 成 ， 我 们 可 以 用 sortBy 方法 控制 用 哪 
个 指标 排序 : 


matchCountsSeq.sortBy(_._1).foreach(println) 


(false,5728201) 
(true,20931) 


matchCountsSeq.sortBy(_._2).foreach(println) 


(true,20931) 
(false,5728201) 


默认 情况 下 ，sortBy 函数 对 数值 按 升序 排序 ， 但 很 多 情况 下 降序 排序 对 直方 图 数据 更 有 
用 。 通 过 在 序列 上 调用 reverse 方法 ， 在 打印 之 前 可 以 改变 排序 方式 : 


matchCountsSeq.sortBy(_._ 2).reverse.foreach(printtLn) 


(false,5728201) 
(true,20931) 


看 看 整个 数据 集 的 匹配 计数 情况 ， 我 们 发 现 匹配 的 记录 数 和 不 匹配 的 记录 数 差别 很 大 。 只 
有 不 到 0.4% 的 输入 对 是 匹配 的 。 这 种 差异 对 记录 关联 模型 影响 是 重大 的 : 很 可 能 我 们 提 
出 的 匹配 分 值 函数 的 误 报 率 很 高 (也 就 是 许多 记录 对 看 起 来 是 匹配 的 ， 但 实际 上 不 匹配 )。 


2.10 连续 变量 的 概要 统计 


对 类 别 变量 基数 相对 小 的 数据 ， 非 常 适合 用 Spark 的 countByValue 动作 创建 直方 图 。 但 对 
连续 变量 ， 比 如 病人 记录 字段 匹配 分 数 ， 我 们 想 快速 得 到 其 分 布 的 基本 统计 信息 ， 比 如 均 
值 、 标 准 差 和 极 值 (比如 最 大 值 和 最 小 值 ) 。 


对 RDD[Double] 的 实例 ， 通 过 隐 式 类 型 转换 ，Spark API 提供 了 额外 的 动作 ， 就 像 为 String 
类 提供 的 toInt 方法 一 样 。 如 果 知 道 如 何 处 理 RDD 所 含 值 的 额外 信息 ， 可 以 通过 隐 式 动 
作对 RDD 功能 做 有 用 扩展 。 


Pair RDD 


除了 RDD[Double] 的 隐 式 动作 ，Spark 支持 RDD[Tuple2[K，V]] 类 型 隐 式 类 型 转换 ， 不 
但 提供 根据 每 个 键 来 汇总 的 groupByKey 和 reduceByKey 方法 ， 而 且 提 供 联结 键 类 型 相 
同 的 多 个 RDD 的 方法 。 


stats 是 RDD[Double] 的 一 个 隐 式 动作 ， 它 提供 了 我 们 渴望 的 RDD 值 概要 统计 信息 。 我 们 
用 它 在 parsed RDD 中 MatchData 记录 的 scores 数组 的 第 一 个 值 上 实验 一 下 : 


parsed.map(md => md.scores(0)).stats() 
StatCounter = (count: 5749132, mean: NaN, stdev: NaN, max: NaN, min: NaN) 


糟糕 的 是 ， 数 组 中 用 作 占 位 符 的 缺失 NaN 值 使 Spark 的 概要 统计 信息 出 了 错 。 更 糟糕 的 是 ， 
Spark 目前 并 没有 提供 很 好 的 方式 帮 有 我 们 排除 缺失 值 并 /或 计算 缺失 值 个 数 。 因 此 我 们 必须 
使 用 Java Double 类 的 isNaN 函数 手动 过 滤 : 


import java.lang.Double.isNaN 
parsed.map(md => md.scores(0)).filter(!isNaN(_)).stats() 
StatCounter = (count: 5748125, mean: 0.7129, stdev: 0.3887, max: 1.0, min: 0.0) 


只 要 愿意 ， 用 这 种 方式 可 以 得 到 scores 数组 值 的 所 有 统计 信息 : 用 Scala 的 Range 结构 创 
建 一 个 循环 ， 遍 历 每 个 下 标 并 计算 该 列 的 统计 信息 : 
val stats = (0 until 9).map(i => { 
parsed.map(md => md.scores(i)).filter(!isNaN(_)).stats() 
}) 


stats(1) 


StatCounter = (count: 103698, mean: 0.9000, stdev: 0.2713, max: 1.0, min: 0.0) 
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stats(8) 


StatCounter = (count: 5736289，mean: 0.0055，stdev: 0.0741，max: 1.0, min: 0.0) 


2.11 为 计算 概要 信息 创建 可 重用 的 代码 


虽然 这 个 方法 能 完成 工作 ， 但 很 低 效 : 为 了 得 到 所 有 统计 信息 ， 必 须 重复 处 理 parsed 
RDD 的 所 有 记录 9 次。 即使 能 通过 内 存 缓存 中 间 结 果 以 节省 处 理 时 间 ， 随 着 数据 量 越 来 
越 大 ， 重 复 处 理 所 有 数据 的 开销 也 将 越 来 越 高 。 用 Spark 开发 分 布 式 算法 时 ， 想 办 法 尽 可 
能 减少 遍历 数据 的 次 数 来 得 到 所 有 答案 是 值得 的 。 对 于 我 们 的 例子 ， 我 们 来 想 办 法 写 一 个 
函数 ， 输 入 一 个 RDD[Array[Double]]， 返 回 一 个 数组 ， 其 中 包含 每 个 指标 对 应 的 缺失 值 个 
数 和 一 个 StatCounter 对 象 。StatCounter 对 象 包 含 了 每 个 指标 除去 缺失 值 后 的 概要 统计 


信息 。 


只 要 分 析 过 的 任务 可 能 重复 出 现 ， 就 值得 花 些 时 间 改 善 代码 ， 使 其 他 分 析 人 员 更 容易 使 用 
我 们 的 方案 。 为 此 我 们 拆 分 Scala 代码 ， 把 它 放 进 一 个 单独 的 文件 ， 然 后 在 测试 和 验证 的 
时 候 通 过 Spark shell 加 载 这 个 文件 即 可 。 如 果 知 道 代码 可 以 正确 运行 ， 还 可 以 把 这 个 文件 
共享 给 他 人 。 


此 时 代码 的 复杂 度 会 有 一 个 飞跃 。 现 在 我 们 不 再 用 只 有 一 两 行 的 方法 和 函数 ， 而 是 需要 创 
建 Scala 类 和 API， 这 意味 着 要 用 到 更 复杂 的 语言 特性 。 


对 缺失 值 分 析 而 言 ， 我 们 的 第 一 个 任务 就 是 写 一 个 类 似 于 Spark StatCounter 类 的 东 
西 ， 以 正确 处 理 缺 失 值 。 在 客户 端 机 器 的 一 个 独立 的 shell 里 ， 打 开 一 个 文件 并 命名 为 
StatsWithMissing.scala， 然 后 把 如 下 的 类 定义 复制 到 这 个 文件 里 。 我 们 先 看 代码 然后 再 看 
每 个 字段 和 方法 : 


import org.apache.spark.util.StatCounter 


class NAStatCounter extends Serializable { 
val stats: StatCounter = new StatCounter() 
var missing: Long = 0 


def add(x: Double): NAStatCounter = { 
if (java.lang.Double.isNaN(x)) { 
missing += 1 
} elsef{ 
stats.merge(x) 
} 
this 


} 


def merge(other: NAStatCounter): NAStatCounter = { 
stats.merge(other .stats) 


太后 
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missing += other .mtssing 


this 
} 
override def toString = { 
"stats: "+ stats.toString + " NaN: " + missing 
} 
3 


object NAStatCounter extends Serializable { 
def apply(x: Double) = new NAStatCounter().add(x) 


NAStatCounter 类 有 两 个 成 员 变 量 : StatCounter 类 型 的 不 可 变量 stats 和 Long 类 型 的 可 变 
变量 mssing。 注 意 我 们 把 类 标记 为 Serializable， 因 为 我 们 要 在 Spark RDD 内 部 使 用 该 
类 的 实例 。 如 果 Spark 不 能 持久 化 其 内 部 的 数据 ， 我 们 的 作业 会 失败 。 


类 的 第 一 个 方法 add 用 于 将 一 个 新 Double 值 加 到 由 NAstatCounter 跟踪 的 统计 信息 中 ， 如 
有 果 Double 值 是 NaN， 就 表明 值 是 缺失 的 ， 如 果 不 是 NaN， 就 把 值 加 到 底层 的 StatCounter 
上 。 方法 merge 向 当前 实例 加 入 了 统计 信息 ， 它 由 另 一 个 NAstatCounter 实例 跟踪 。 这 两 
个 方法 都 返回 this， 这 样 方便 它们 链 式 串联 起 来 。 


最 后 我 们 覆盖 了 NAStatCounter 的 tostring 方法， 这样 就 可 以 轻松 地 在 Spark shell 中 打印 
出 NAStatCounter 的 内 容 。 在 Scala 语言 中 ， 和 覆盖 父 类 的 方法 必须 要 在 方法 定义 之 前 加 上 
override 关键 字 。 相 比 Java，Scala 提供 的 方法 覆盖 模式 要 多 得 多 ， 关 键 字 override 帮助 
Scala 跟踪 对 任何 类 该 使 用 哪个 方法 定义 。 


和 类 定义 一 起 ， 我 们 为 NAStatCounter 定义 了 一 个 伴生 对 象 (companion object) 。Scala 
的 object 关键 字 用 于 声明 一 个 单 例 对 象 ， 该 对 象 为 类 提供 助手 方法 ， 这 类 似 于 Java 类 的 
static 方法 定义 。 在 我 们 的 示例 中 ， 伴 生 对 象 提 供 的 apply 方法 创建 了 NAStatCounter 
类 的 实例 ， 并 把 一 个 给 定 的 Double 值 加 到 实例 里 然后 返回 实例 。 在 Scala 中 ，apply 方 
法 有 一 种 特殊 语法 糖 ， 它 使 我 们 调用 该 方法 而 不 用 多 项 代码 ， 比 如 如 下 两 行 代码 的 功能 
完全 相同 : 


val nastats 
val nastats 


NAStatCounter .apply(17.29) 
NAStatCounter(17.29) 


NAStatCounter 类 定义 好 了 ， 关 闭 并 保存 StatsWithMissing.scala 文件 ， 然 后 用 Load 命令 把 
它 加 载 到 Spark shell 里 : 


:load StatsWithMissing.scala 


Loading StatsWithMissing.scala ... 
import org.apache.spark.util.StatCounter 
defined class NAStatCounter 
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defined module NAStatCounter 

warning: previously defined class NAStatCounter is not a companion to object 
NAStatCounter. Companions must be defined together; you may wish to use 
:paste mode for this. 


警告 提示 我 们 伴生 对 象 在 shell 使 用 的 增 量 式 编译 模式 下 是 不 合法 的 。 但 我 们 可 以 验证 几 个 
例子 能 正确 运行 : 


val nas1 = NAStatCounter(10.0) 
nas1.add(2.1) 

val nas2 = NAStatCounter(DoubLe.NaN) 
nasl1.merge(nas2) 


现在 用 新 的 NAStatCounter 类 来 处 理 parsed RDD 中 MatchData 记录 的 匹配 分 数 。 每 个 
MatchData 实例 包含 一 个 Array[Double] 类 型 的 分 值 数 组 。 对 数组 的 每 一 项 ， 我 们 都 想 
有 一 个 NAStatCounter 实例 来 追踪 数组 下 标 对 应 的 值 有 多 少 个 是 NaN， 同 时 也 追踪 除去 
缺失 值 后 的 常规 分 布 的 统计 信息 。 给 定 一 个 值 的 数组 ， 我 们 可 以 用 map 函数 来 创建 一 组 
NAStatCounter 对 象 ; 


val arr 
val nas 


Array(1.0, Double.NaN, 17.29) 
arr.map(d => NAStatCounter(d)) 


RDD 中 每 条 记录 都 有 自己 的 Array[Double]， 我 们 可 以 把 它 转换 成 另 一 个 RDD， 新 RDD 的 每 
条 记录 是 一 个 Array[NAStatCounter]。 现 在 我 们 继续 把 这 个 方法 用 到 集群 上 的 parsed RDD: 


val nasRDD = parsed.map(md => { 
md.scores.map(d => NAStatCounter(d)) 
}) 


我 们 需要 有 一 种 简单 的 方式 把 多 个 Array[NAStatCounter] 实例 聚合 到 一 个 Array[NAStatCounter] 
中 。 可 以 用 zip 方法 把 两 个 具有 相同 长 度 的 数组 组 合 在 一 起 生成 一 个 新 Array， 新 Array 的 
元 素 是 由 原来 两 个 数组 中 具有 相同 下 标的 两 个 元 素 组 成 的 元 素 对 


val nas1 = Array(1.0, Double.NaN).map(d => NAStatCounter(d)) 
val nas2 = Array(Double.NaN, 2.0).map(d => NAStatCounter(d)) 
val merged = nas1.zip(nas2).map(p => p._1.merge(p._2)) 


我 们 甚至 可 以 用 Scala 的 case 语法 ， 将 合并 后 的 数组 中 的 元 素 对 拆 成 有 良好 命名 的 变量 ， 
而 不 用 Tuple2 类 中 的 -1 和 -2 这 种 隐 汐 难 懂 的 方法 : 


val merged = nas1.zip(nas2).map { case (a, b) => a.merge(b) } 


要 在 Scala 集合 的 所 有 记录 上 执行 相同 的 merge 操作 ， 可 以 使 用 reduce 函数 。reduce 函数 
的 输入 是 一 个 关联 函数 ， 该 函数 把 两 个 T 类 型 的 参数 映射 为 一 个 T 类 型 的 返回 值 。reduce 
函数 一 过 又 一 遍地 将 关联 函数 应 用 到 集合 的 所 有 元 素 ， 这 样 就 把 所 有 值 都 合并 在 一 起 了 。 
因为 之 前 写 的 合并 逻辑 是 关联 性 的 ， 所 以 我 们 可 以 把 它 作 为 reduce 函数 的 输入 并 应 用 到 


入 后 
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Array[NAStatCounter] 类 型 值 的 集合 上 。 


val nas = List(nas1，nas2) 

val merged = nas.reduce((n1，n2) => { 
n1.ztp(n2).map { case (a，b) => a.merge(b) } 

}) 


RDD 类 同样 有 一 个 reduce 动作 ， 它 和 我 们 刚才 用 到 的 Scala 集合 上 的 reduce 方 
法 类 似 ， 只 是 作用 的 对 象 为 分 布 在 集群 上 的 所 有 数据 。Spark 代码 和 我 们 刚 为 
List[Array[NAStatCounter]] 写 的 一 模 一 样 : 


val reduced = nasRDD.reduce((n1，n2) => { 
n1.zip(n2).map { case (a, b) => a.merge(b) } 
}) 


reduced.foreach(println) 


stats: (count: 5748125, mean: 0.7129, stdev: 0.3887， 

max: 1.0, min: 0.0) NaN: 1007 

stats: (count: 103698, mean: 0.9000, stdev: 0.2713, 

max: 1.0, min: 0.0) NaN: 5645434 

stats: (count: 5749132, mean: 0.3156, stdev: 0.3342, max: 1.0, min: 0.0) NaN: 0 
stats: (count: 2464, mean: 0.3184, stdev: 0.3684, 

max: 1.0, min: 0.0) NaN: 5746668 


stats: (count: 5749132, mean: 0.9550, stdev: 0.2073, max: 1.0, min: 0.0) NaN: 0 

stats: (count: 5748337, mean: 0.2244, stdev: 0.4172, max: 1.0, min: 0.0) NaN: 795 
stats: (count: 5748337, mean: 0.4888, stdev: 0.4998, max: 1.0, min: 0.0) NaN: 795 
stats: (count: 5748337, mean: 0.2227, stdev: 0.4160, max: 1.0, min: 0.0) NaN: 795 


stats: (count: 5736289, mean: 0.0055, stdev: 0.0741, 
max: 1.0, min: 0.0) NaN: 12843 


让 我 们 把 缺失 值 分 析 代 码 打包 为 一 个 函数 ， 放 在 StatsWithMissing.scala 文件 里 。 编 辑 该 文 
件 并 加 入 如 下 代码 ， 它 就 可 以 为 任何 RDD[Array[Double]] 计算 所 需 的 统计 信息 : 


import org.apache.spark.rdd.RDD 


def statsWithMissing(rdd: RDD[Array[Double]]): Array[NAStatCounter] = { 
val nastats = rdd.mapPartitions((iter: Iterator[Array[Double]]) => { 
val nas: Array[NAStatCounter] = iter.next().map(d => NAStatCounter(d)) 
iter.foreach(arr => { 
nas.zip(arr).foreach { case (n, d) => n.add(d) } 
}) 
Iterator(nas) 
}) 
nastats.reduce((n1，n2) => { 
n1.ztp(n2).map { case (a, b) => a.merge(b) } 
}) 
} 


注意 ， 在 对 输入 RDD 的 每 条 记录 生成 Array[NAStatCounter] 时 ， 并 不 是 调用 map 
数 ， 而 是 调用 更 高 级 的 mapPartitions 国 数 。mapPartitions 函数 只 用 一 个 从 代 
Iterator[Array[Double]] 处 理 输 入 RDD[Array[Double]] 的 一 个 分 区 中 的 所 有 记录 。 这 样 只 


DD 弛 民 
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要 为 每 个 数据 分 区 创建 一 个 Array[NAStatCounter] ， 并 用 迭代 器 返回 的 Array[Double] 类 型 
的 值 来 更 新 Array[NASstatCounter] 实例 的 状态 就 好 了 ， 这 种 实现 方式 的 效率 更 高 。 我 们 实 
现 的 statswithMissing 方法 现在 真 的 和 Spark 开发 人 员 实 现 的 RDD[Double] 的 stats 方法 
差不多 一 样 了 。 


2.12 ”变量 的 选择 和 评分 简介 


有 了 statsWithMissing 国 数 ， 我 们 就 可 以 分 析 parsed RDD 中 匹配 和 不 匹配 记录 的 匹配 分 
值 数组 的 分 布 差异 了 。 


val statsm = statsWithMissing(parsed.filter(_.matched).map(_.scores)) 
val statsn = statsWithMissing(parsed.filter(!_.matched).map(_.scores)) 


statsm 和 statsn 这 两 个 数组 结构 相同 ， 但 对 应 不 同 的 数据 子 集 : statsm 包含 匹配 记录 匹 
配 分 值 数组 的 概要 统计 信息 ， 而 statsn 对 应 不 匹配 记录 分 值 数组 的 概要 统计 信息 。 对 匹配 
和 不 匹配 记录 列 的 值 做 简单 差异 分 析 ， 有 助 于 我 们 提出 一 个 评分 函数 ， 该 评分 函数 可 以 根 
据 匹配 得 分 把 匹配 记录 和 不 匹配 记录 清楚 地 分 开 : 


statsm.zip(statsn).map { case(m，n) => 
(m.missing + N.missing, m.stats.mean - nN.stats.mean) 
}.foreach(println) 


((1007, 0.2854...), 0) 
((5645434,0.09104268062279874)，1) 
((0,0.6838772482597568)，2) 
((5746668,0.8064147192926266)，3) 
((0,0.03240818525033484)，4) 
((795,0.7754423117834044)，5) 
((795,0.5109496938298719),，6) 
((795,0.7762059675300523), 7) 
((12843,0.9563812499852178)，8) 


一 个 好 特征 有 两 个 属性 : 第 一 ， 对 匹配 记录 和 不 匹配 记录 它 的 值 往往 差别 很 大 (因此 均值 
的 差异 也 很 大 ) ; 第 二 ， 在 数据 中 出 现 的 频率 高 ， 这 样 我 们 才能 指望 它 在 任何 一 对 记录 里 
都 有 值 。 如 有 果 按 这 个 指标 来 看 ， 特 征 1 作用 不 大 : 它 缺 失 的 情况 很 多 ， 并 且 对 匹配 记录 和 
非 匹 配 记 录 它 的 均值 差别 也 相对 小 ， 对 从 0 到 1 的 范围 来 讲 ， 只 有 0.09。 特 征 4 也 不 是 
特别 有 帮助 : 尽管 它 没有 缺失 情况 ， 但 对 匹配 记录 和 非 匹配 记录 它 的 均值 差别 只 有 区 区 
0.03。 


相反 ， 特 征 5 和 特征 7 就 特别 好 : 它们 基本 上 对 每 对 记录 都 有 值 ， 并 且 对 匹配 记录 和 非 匹 
配 记 录 它 的 均值 差别 非常 大 〈 均 超过 0.77)。 特 征 2、 特 征 6 和 特征 8 看 起 来 也 有 用 : 它们 
在 数据 集中 通常 都 有 值 ， 匹 配 记 录 和 非 匹配 记录 的 均值 差别 也 不 小 。 


特征 0 和 特征 3 就 有 点 儿 处 在 中 间 地 带 : 特征 0 的 区 分 度 不 太 好 (匹配 记录 和 非 匹 配 记录 
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的 均值 差别 只 有 0.28) ， 但 它 在 记录 对 中 通常 都 有 值 ， 特 征 3 匹配 记录 和 非 匹 配 记 录 的 均 
值 差 别 大 但 却 几 乎 总 是 缺失 。 根 据 这 个 数据 很 难 清晰 界定 什么 情况 下 我 们 该 把 这 两 个 特征 
加 入 到 我 们 的 模型 中 。 


现在 我 们 用 一 个 简单 的 评分 模型 ， 该 模型 把 记录 对 的 相似 度 排 序 。 相 似 度 的 计算 为 特征 2、 
5、6、7 和 8 的 值 相 加 ， 这 些 特征 明显 是 好 特征 。 少 数 记 录 中 这 几 个 特征 有 缺失 的 情况 ， 
对 于 这 些 记录 的 相 加 结果 我 们 以 0 来 代替 NaN。 我 们 想 大 体 了 解 一 下 我 们 的 简单 模型 表现 
如 何 ， 方 法 如 下 : 创建 分 数 和 匹配 值 RDD 并 评估 在 不 同 国 值 下 匹配 记录 和 不 匹配 记录 的 
分 数 差 别 : 


def naz(d: Double) = if (Double.NaN.equals(d)) 0.0 else d 

case class Scored(md: MatchData, score: Double) 

val ct = parsed.map(md => { 
val score = Array(2, 5, 6, 7, 8).map(i => naz(md.scores(i))).sum 
Scored(md, score) 


}) 


过 沽 国 值 为 40， 这 个 值 很 高 ， 意 味 着 5 个 特征 的 平均 值 是 0.8。 我 们 过 滤 掉 了 几乎 所 有 不 
匹配 的 记录 ， 同 时 保留 了 超过 90% 的 匹配 记录 : 


ct.filter(s => s.score >= 4.0).map(s => s.md.matched).countByValue() 
Map(false -> 637, true -> 20871) 
使 用 一 个 较 低 的 赋值 2.0， 我 们 可 以 捕捉 所 有 已 知 的 匹配 记录 ， 但 代价 是 误 报 率 高 。 
ct.filter(s => s.score >= 2.0).map(s => s.md.matched).countByValue() 
Map(fatse -> 596414, true -> 20931) 
尽管 误 报 次 数 有 点 儿 多 ， 这 个 更 宽松 的 过 滤 条 件 仍 然 过 滤 掉 了 90% 的 不 匹配 记录 ， 而 且 保 
留 了 每 个 真正 的 匹配 记录 。 虽 然 这 已 经 很 好 了 ， 但 还 是 有 改进 的 余地 。 请 读者 试 一 试 ， 看 


能 否 找 到 一 个 更 好 的 评分 函数 。 这 个 评分 可 使 用 scores 数组 中 的 其 他 值 (包括 缺失 的 和 非 
缺失 的 )， 它 能 区 分 出 每 个 匹配 的 记录 ， 但 误 报 次 数 少 于 100。 


2.f13 外 人知 


如 果 本 章 是 你 第 一 次 用 Scala 和 Spark 做 数据 准备 和 分 析 ， 我 们 希望 通过 本 章 的 学 习 ， 你 
对 这 些 工 具 提 供 的 强大 支持 已 经 有 所 了 解 了 。 如 果 你 已 经 用 过 一 段 时 间 Scala 和 Spark， 我 
们 希望 你 把 本 章 的 内 容 介 绍 给 朋友 和 同事 ， 以 便 他 们 也 可 以 了 解 Scala 和 Spark 的 强大 。 


本 章 的 目的 是 为 你 提供 足够 的 Scala 知识 ， 以 便 理解 和 完成 本 书后 续 的 示例 。 如 果 你 习惯 
通过 实例 来 学 习 ， 那 你 得 继续 看 看 后 面 儿 章 ， 届 时 将 介绍 Spark 的 机 器 学 习 库 MLlib。 
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随 着 你 能 熟练 地 用 Spark 和 Scala 做 数据 分 析 ， 会 慢 慢 地 想 自 己 构建 工具 和 类 库 ， 从 而 


帮助 其 他 分 析 人 员 和 数据 科学 家 用 Spark 解决 问题 。 这 时 看 看 其 他 Scala 


会 对 你 的 开 


发 有 所 帮助 ， 这 些 书包 括 Dean Wampler 所 著 的 Programming Scala, 2nd Edition' 和 Alvin 


Alexander 所 车 的 Scala Cookbook (这 两 本 书 均 由 O?Reilly 出 版 社 出 版 )。 


注 1: 本 书 已 经 由 人 民 邮 电 晶 


大 所 
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版 社 


受 | 


灵 公 司 引 进 ， 近 


胃 将 出 版 。 一 一 编者 注 


第 3 章 
音乐 推荐 和 Audioscrobbler 数 据 集 


作者 : Sean Owen 


偏好 是 无 法 度量 的 。 


经 党 有 人 问 起 我 的 职业 。 数据 科学 ”或 “机 器 学 习 ” 固 然 听 起 来 很 高 端 ， 但 常常 把 对 方 
搞 得 一 头 雾 水 。 发 生 这 种 情况 很 正常 ， 即 使 数据 科学 家 自己 也 很 难 把 数据 科学 说 清楚 。 数 
据 科学 就 是 存储 大 量 数据 ， 对 数据 进行 计算 ， 然后 进行 预测 吗 ? 通常 这 时 我 会 直接 举 个 例 
子 来 帮助 提问 者 搞 清 楚 我 到 底 是 做 什么 的 : 


你 在 亚 蕊 逊 买 了 书 以 后 ， 它 会 向 你 推荐 类 似 的 书 ， 对 吗 ? 对 ， 就 是 这 个 意思 ， 其 实 
它 就 用 到 了 数据 科学 ! ” 


从 经 验 上 来 讲 ， 推 荐 引擎 大 体 上 属于 大 规模 机 器 学 习 。 大 家 对 此 都 了 解 ， 而 且 大 部 分 人 在 
亚马逊 上 都 见 过 。 从 社交 网 络 到 视频 网 站 ， 再 到 在 线 零 售 ， 都 用 到 了 推荐 引擎 ， 大 家 都 知 
道 推荐 引擎 。 实 际 应 用 中 的 推荐 引擎 我 们 也 能 直接 看 到 。 虽然 我 们 知道 Spotify 上 是 计算 
机 在 挑选 播放 的 歌曲 但 我 们 可 不 一 定 知道 Gmail 系统 可 以 判断 收 件 箱 里 的 邮件 是 不 是 垃 
圾 邮件 。 


相 比 其 他 的 机 器 学 习 算 法 ， 推 荐 引擎 的 输出 更 直观 ， 更 容易 理解 。 有 时 这 甚至 会 让 人 很 激 
动 。 尽 管 我 们 都 认为 每 个 人 的 音乐 喜好 都 非常 个 性 化 ， 并 且 也 很 难 解释 这 种 现象 ， 但 是 推 
荐 引擎 却 很 擅长 推荐 一 些 让 人 喜爱 的 歌曲 ， 这 些 歌 曲 连 我 们 自己 都 不 知道 会 喜欢 。 
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最 后 ， 在 推荐 引擎 应 用 比较 广泛 的 领域 ， 比 如 音乐 和 电影 ， 要 解释 为 什么 推荐 的 音乐 和 一 
个 人 以 前 听 过 的 音乐 相 吻 合 ， 这 是 相对 比较 容易 的 。 但 对 某 些 聚 类 和 分 类 算法 来 说 ， 情 况 
就 不 是 这 样 了 。 比 如 ， 支 持 向 量 机 分 类 器 其 实 就 是 一 组 系数 ， 用 这 个 分 类 器 进行 预测 时 ， 
即使 是 业内 人 士 ， 也 很 难 解释 这 些 系数 的 意义 。 


现在 该 开始 介绍 接 下 来 的 三 章 了 ， 这 三 章 讲述 Spark 中 主要 的 机 器 学 习 算法 。 其 中 一 章 围 
绕 推 荐 引擎 展开 ， 主 要 介绍 音乐 推荐 。 在 随后 的 章节 中 我 们 先 介 绍 Spark 和 MLlib 的 实际 
应 用 ， 接 着 介绍 一 些 机 器 学 习 的 基本 思想 ， 这 样 的 阐述 方式 读者 接受 起 来 比较 容易 。 


3.1 数据 集 

本 章 示 例 使 用 Audioscrobbler 公开 发 布 的 一 个 数据 集 。Audioscrobbler 是 last.fm 的 第 
一 个 音乐 推荐 系统 。lastfm 创建 于 2002 年 ， 是 最 早 的 互联 网 流 媒 体 广播 站 点 之 一 。 
Audioscrobbler 提供 了 开放 的 “scrobbling”API, “scrobbling” 可 以 记录 听众 播放 过 哪些 艺 
术 家 的 歌曲 。last.fm 使 用 这 些 音 乐 播放 记录 构建 了 一 个 强大 的 音乐 推荐 引擎 。 由 于 第 三 
应 用 和 网 站 可 以 把 音乐 播放 数据 反馈 给 这 个 推荐 引擎 ， 这 个 推荐 引擎 系统 覆盖 了 数 百 万 的 
用 户 。 

在 last.fm 的 年 代 ， 推 荐 引擎 方面 的 研究 大 多 局 限于 评分 类 数据 。 换 句 话说 ， 人 们 常常 把 推 
荐 引擎 看 成 处 理 “Bob 给 Prince 的 评价 是 3 星 半 ” 这 类 输入 数据 的 工具 。 


Audioscrobbler 数据 集 有 些 特别 ， 因 为 它 只 记录 了 播放 数据 ， 如 “Bob 播放 了 一 首 Prince 
的 歌曲 "”。 播 放 记 录 所 包含 的 信息 比 评分 要 少 。 仅 仅 赁 Bob 播放 过 某 歌 曲 这 一 信息 并 不 能 
说 明 他 真 的 喜欢 这 首 歌 。 有 时 候 我 们 会 随便 打开 一 首 歌 ， 甚 至 是 整 张 专辑 ， 然 后 就 离开 了 
房间 ， 可 能 都 不 关心 歌 到 底 是 谁 唱 的 。 


三 


然而 ， 虽然 人 们 经 常 听 音 乐 ， 但 却 很 少 给 音乐 评分 。 因 此 Audioscrobbler 数据 集 要 大 得 多 ， 
它 覆 盖 了 更 多 的 用 户 和 艺术 家 ， 也 包含 了 更 多 的 总 体 信息 ， 虽 然 单条 记录 的 信息 比较 少 。 
这 种 类 型 的 数据 通常 被 称 为 隐 式 反馈 数据 ， 因 为 用 户 和 艺术 家 的 关系 是 通过 其 他 行动 隐 含 
体现 出 来 的 ， 而 不 是 通过 显 式 的 评分 或 点 赞 得 到 的 。 


2005 年 last.fm 发 布 了 该 数据 集 的 一 个 版 本 ， 读 者 可 以 在 网 上 下 载 到 压缩 的 归档 文件 
(http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html)。 下 载 归 档 文件 后 ， 你 
会 发 现 里 面 有 儿 个 文件 。 主 要 的 数据 集 在 文件 user_artist_data.txt 中 ， 它 包含 141 000 个 用 
户 和 160 万 个 艺术 家 ， 记 录 了 约 2420 万 条 用 户 播放 艺术 家 歌曲 的 信息 ， 甚 中 包括 播放 次 
数 信息 。 

数据 集 在 artist_data.txt 文件 中 给 出 了 每 个 艺术 家 的 ID 和 对 应 的 名 字 。 请 注意 ， 记 录 播 放 
信息 时 ， 客 户 端 应 用 提交 的 是 艺术 家 的 名 字 。 名 字 如 果 有 拼写 错误 ， 或 使 用 了 非 标准 的 名 
称 ， 事 后 才能 被 发 现 。 比 如 ,“The Smiths”“Smiths, The” 和 “the smiths” 看 似 代表 不 同 
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艺术 家 的 ID， 但 它们 其 实 明 显 是 指 同 一 个 艺术 家 。 因 此 ， 为 了 将 拼写 错误 的 艺术 家 ID 或 
ID 变 体 对 应 到 该 艺术 家 的 规范 ID ， 数 据 集 提 供 了 artist_alias.txt 文件 。 


3.2 交 普 最 小 二 乘 推荐 算法 

现在 我 们 要 给 这 个 隐 式 反馈 数据 选择 一 个 合适 的 推荐 算法 。 这 个 数据 集 只 记录 了 用 户 和 歌 
曲 之 间 的 交互 情况 。 除 了 艺术 家 名 字 外 ， 数 据 集 没有 包含 用 户 的 信息 ， 也 没有 提供 歌手 的 
其 他 任何 信息 。 我 们 要 找 的 学 习 算 法 不 需要 用 户 和 艺术 家 的 属性 信息 。 这 类 算法 通常 称 为 
协同 过 滤 算 法 (http://en.wikipedia.org/wiki/Collaborative_filtering)。 举 个 例子 ， 根 据 两 个 用 
户 的 年 龄 相同 来 判断 他 们 可 能 有 相似 的 偏好 ， 这 不 叫 协同 过 滤 。 相 反 ， 根 据 两 个 用 户 播放 
过 许多 相同 歌曲 来 判断 他 们 可 能 都 喜欢 某 首 歌 ， 这 才 叫 协同 过 滤 。 


Audioscrobbler 数据 集 包含 了 数 千 万 条 某 个 用 户 播 放 了 某 个 艺术 家 歌曲 次 数 的 信息 ， 看 起 
来 是 很 大 。 但 从 另 一 方面 来 看 数据 集 又 很 小 而 且 不 充足 ， 因 为 数据 集 是 稀疏 的 。 虽 然 数据 
集 覆 盖 160 万 个 艺术 家 ， 但 平均 来 算 ， 每 个 用 户 只 播放 了 大 约 171 个 艺术 家 的 歌曲 。 有 的 
用 户 只 播放 过 一 个 艺术 家 的 歌曲 。 对 这 类 用 户 ， 我 们 也 希望 算法 能 给 出 像样 的 推荐 。 毕 竞 
每 个 用 户 在 某 个 时 刻 只 能 播放 一 首 歌 曲 。 


最 后 ， 我 们 希望 算法 的 扩展 性 好 ， 不 但 能 用 于 构建 大 型 模型 ， 而 且 推 荐 速度 快 。 我 们 通常 
都 要 求 推荐 是 接近 实时 的 ， 也 就 是 在 一 秒 内 给 出 推荐 ， 而 不 是 要 等 一 天 。 


本 实例 将 用 到 潜在 因素 (http://en.wikipedia.org/wiki/Factor_analysis) 模型 中 的 一 种 模型 ， 
这 类 模型 涉及 的 范围 很 广泛 。 潜 在 因素 模型 试图 通过 数量 相对 少 的 未 被 观察 到 的 底层 原 
， 来 解释 大 量 用 户 和 产品 之 间 可 观察 到 的 交互 。 打 个 比方 : 有 几 千 个 专辑 可 选 ， 为 什么 
数 百 万 人 偏偏 只 买 其 中 某 些 专辑 ? 可 以 用 对 类 别 〈 可 能 只 有 数 十 种 ) 的 偏好 来 解释 用 户 和 
专辑 的 关系 ， 其 中 偏好 信息 并 不 能 直接 观察 到 ， 而 数据 也 没有 给 出 这 些 信息 。 


说 得 更 明确 一 些 ， 本 实例 用 的 是 一 种 矩阵 分 解 模型 (http:/en.wikipedia.org/wikiNon- 
negative_matrix_factorization) 。 数 学 上 ， 这 些 算法 把 用 户 和 产品 数据 当成 一 个 大 算 阵 4， 甜 
阵 第 i 行 和 第 j 列 上 的 元 素 有 值 ， 代 表 用 户 i 播放 过 艺术 家 j 的 音乐 。 和 矩阵 4 是 稀 玻 的 : 4 
中 大 多 数 元 素 都 是 0， 因为 相对 于 所 有 可 能 的 用 户 - 艺术 家 组 合 ， 只 有 很 少 一 部 分 组 合 会 
出 现在 数据 中 。 算 法 将 4 分 解 为 两 个 小 矩阵 了 和 了 的 乘积 。 和 矩阵 了 X 和 和 矩阵 了 非常 “ 瘦 ”， 
因为 4 有 很 多 行 和 列 ， 但 XY 和 了 的 行 很 多 而 列 很 少 ( 列 数 用 表示 )。 这 个 列 就 是 潜在 
因素 ， 用 于 解释 数据 中 的 交互 关系 。 


由 于 k 的 值 小 ， 和 矩阵 分 解 算法 只 能 是 某 种 近似 ， 如 图 3-1 所 示 : 
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3-1: 矩阵 分 解 


和 矩阵 分 解 算 法 有 时 称 为 矩阵 补 全 (matrix completion) 算法 ， 因 为 原始 矩阵 4 可 能 非常 稀 
玻 ， 但 乘积 X7 是 稠密 的 ， 即 使 该 矩阵 存在 非 零 元 素 ， 非 零 元 素 的 数量 也 非常 少 。 因 此 模 
型 只 是 对 4 的 一 种 近似 。 原 始 4 中 大 量 元 素 是 缺失 的 (元素 值 为 0) ， 算 法 为 这 些 缺 失 元 
素 生 成 〈 补 全 ) 了 一 个 值 ， 从 这 个 角度 讲 ， 我 们 可 以 把 算法 称 为 模型 。 


幸运 的 是 ， 本 例 中 的 线性 代数 和 我 们 的 直觉 很 好 地 对 应 起 来 了 。 这 种 对 应 关系 在 这 里 是 直接 
的 ， 也 是 优雅 的 。 两 个 矩阵 分 别 有 一 行 对 应 每 个 用 户 和 每 个 艺术 家 。 每 行 的 值 很 少 ， 只 有 大 
个 。 每 个 值 代表 了 对 应 模型 的 一 个 隐 含 特征 。 因 此 行 表示 了 用 户 和 艺术 家 怎样 关联 到 这 些 隐 
含 特征 ， 而 隐 含 特征 可 能 就 对 应 偏好 或 类 别 。 于 是 问题 就 简化 为 用 户 - 特征 矩阵 和 特征 - 艺 
术 家 算 阵 的 乘积 ， 该 乘积 的 结果 是 对 整个 稠密 的 用 户 - 艺术 家 相互 关系 和 矩阵 的 完整 估计 。 


不 幸 的 是 ，4 = XY 通常 根本 没有 解 ， 原 因 就 是 和 了 通常 不 够 大 (严格 来 讲 就 是 矩阵 的 
阶 太 小 )， 无 法 完美 表示 4。 这 其 实 也 是 件 好 事 。4 只 是 所 有 可 能 出 现 的 交互 关系 的 一 个 微 
小 样本 。 在 某 种 程度 上 我 们 认为 4 是 对 基本 事实 的 一 次 观察 ， 它 太 稀 玻 ， 因 此 很 难 解释 这 
个 基本 事实 。 但 用 少数 几 个 因素 (k 个 ) 就 能 很 好 地 解释 这 个 基本 事实 。 想 象 一 下 你 正在 
玩 拼 图 游戏 ， 图 案 是 一 只 猫 。 游 戏 最 终 答案 很 简单 ， 就 是 一 只 猫 。 但 当 你 手头 上 只 有 几 块 
拼 板 时 ， 就 会 很 难 描述 眼前 看 到 的 图 案 。 


XY 应 该 尽 可 能 和 逼 近 4， 毕 竞 这 是 所 有 后 续 工 作 的 基础 ， 但 它 不 能 也 不 应 该 完全 复制 4。 
然而 同样 不 幸 的 是 ， 想 直接 同时 得 到 铸 和 了 的 最 优 解 是 不 可 能 的 。 好 消息 是 ， 如 果 了 已 
知 ， 求 和 的 最 优 解 是 非常 容易 的 ， 反 之 亦 然 。 但 并 和 了 事先 都 是 未 知 的 。 


地 好 有 算法 可 以 帮助 我 们 摆脱 这 种 两 难 的 境地 ， 并 且 能 找到 一 个 还 不 错 的 解决 方案 。 具 
体 来 说 ， 求 解 基 和 了 Y 时 ， 本 章 使 用 交替 最 小 二 乘 (Alternating Least Squares，ALS) 算 
法 。 这 类 方法 在 Netflix 竞赛 期 间 流 行 起 来 ， 对 此 一 些 论文 功 不 可 没 ， 比 如 “Collaborative 
Filtering for Implicit Feedback Datasets” 和 “Large-scale Parallel Collaborative Filtering for the 
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Netflix Prize”。 实 际 上 Spark MLlib 的 ALS 算法 实现 思想 就 来 源 于 这 两 篇 论文 。 


虽然 了 是 未 知 的， 但 我 们 可 以 把 它 初始 化 为 随机 行 向 量 和 矩阵 。 接 着 运用 简单 的 线性 代数 ， 
就 能 在 给 定 4 和 了 的 条 件 下 求 出 的 最 优 解 。 实 际 上 , 的 第 i 行 是 4 的 第 i 行 和 了 的 函 
数 ， 因 此 可 以 很 容易 分 开 计 算 X 的 每 一 行 。 因 为 的 每 一 行 可 以 分 开 计 算 ， 所 以 我 们 可 以 
将 甚 并行 化 ， 而 并 行 化 是 大 规模 计算 的 一 大 优点 。 


AY(Y'Y) = 大 


要 想 两 边 精确 相等 是 不 可 能 的 ， 因 此 实际 的 目标 是 最 小 化 |4ZZD” - 到， 或 者 最 小 化 
两 个 矩阵 的 平方 误差 。 这 就 是 算法 名 称 中 “最 小 二 乘 ” 的 来 由 。 这 里 给 出 方程 式 只 是 为 
了 说 明 行 向 量 计算 方法 ， 但 实践 中 从 来 不 会 对 和 矩阵 求 逆 ， 我 们 会 借助 于 QR 分 解 (http:// 
en.wikipedia.org/wiki/QR_decomposition) 之 类 的 方法 ， 这 种 方法 速度 更 快 而 且 更 直接 。 


同 理 ， 我 们 可 以 由 总 计算 每 个 已 。 然 后 又 可 以 由 了 计算 X， 这 样 反复 下 去 。 这 就 是 算法 名 
称 中 “交替 ”的 来 由 。 这 里 有 一 个 小 问题 : 了 是 “ 频 编 ”的 ， 并 且 是 随机 的 。 式 是 最 优化 
计算 出 来 的 ， 这 没 错 ， 但 给 定 的 了 Y 却 是 “ 假 ”的 。 好 在 ， 只 要 这 个 过 程 一 直 继 续 , 和 了 
最 终 会 收敛 得 到 一 个 合适 的 结果 。 


将 ALS 算法 用 于 隐 性 数据 矩阵 分 解 时 ，ALS 矩阵 分 解 要 稍微 复杂 一 点 儿 。 它 不 是 直接 分 
解答 入 矩阵 4， 而 是 分 解 由 0 和 1 组 成 的 矩阵 已 ， 当 4 中 元 素 为 正 时 ，P 中 对 应 元 素 为 1， 
否则 为 0。4 中 的 具体 值 后 面 会 以 权重 的 形式 反映 出 来 。 本 书 不 对 其 中 细 市 做 过 多 讨论 ， 
但 我 们 有 必要 知道 如 何 使 用 该 算法 。 


最 后 ，ALS 算法 也 可 以 利用 输入 数据 是 稀 朴 的 这 一 特点 。 稀 玻 的 输入 数据 、 可 以 用 简单 的 
线性 代数 运算 求 最 优 解 ， 以 及 数据 本 身 可 并 行 化 ， 这 三 点 使 得 算法 在 大 规模 数据 上 速度 非 
常 快 。 这 也 就 是 我 们 要 把 ALS 算法 作为 本 章 主 题 的 主要 原因 ， 同 时 也 解释 了 为 什么 到 目前 
为 止 Spark MLlib 只 有 ALS 一 种 推荐 算法 。 


3.3 准备 数据 

将 三 个 数据 文件 全 部 复制 到 HDFS。 本 章 假定 文件 放 在 /userds/ 目录 下 ， 启 动 spark- 
shell。 注 意 本 章 的 运算 需要 占用 非常 多 的 内 存 。 如 果 运 行 在 本 地 而 不 是 在 集群 上 ， 为 了 保 
证 内 存 充 足 ， 在 启动 spark-shell 时 需求 指定 参数 - -driver-memory 6g。 


构建 模型 的 第 一 步 是 了 解数 据 ， 对 数据 进行 解析 或 转换 ， 以 便 在 Spark 中 做 分 析 。 


Spark MLlib 的 ALS 算法 实现 有 一 个 小 缺点 : 它 要 求 用 户 和 产品 的 ID 必须 是 数值 型 ， 并 且 
是 32 位 非 负 整 数 。 这 意味 着 大 于 Integer .MAX_VALUE 〈 即 2147483647) 的 ID 都 是 非法 的 。 
我 们 的 数据 集 是 否 已 经 满足 了 这 个 要 求 ? 利用 SparkContext 的 textFile 方法 ， 将 数据 文 
件 转换 成 String 类 型 的 RDD: 
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val rawUserArtistData = sc.textFiLe("hdfs:///user/ds/user_artist_data.txt") 


默认 情况 下 ，RDD 为 每 个 HDFS 块 生成 一 个 分 区 ， 将 HDFS 块 大 小 设 为 典型 的 128 MB 或 
64 MB。 由 于 HDEFS 文件 大 小 为 400 MB ， 所 以 文件 被 拆 为 3 个 或 6 个 分 区 。 这 通常 没 什 
么 问题 ,但 由 于 相 比 简单 文本 处 理 ，ALS 这 类 机 器 学 习 算法 要 消耗 更 多 的 计算 资源 ， 因 此 
减 小 数据 块 大 小 以 增加 分 区 个 数 会 更 好 。 减 小 数据 块 大 小 能 使 Spark 处 理 任 务 时 同时 使 用 
的 处 理 器 核 数 更 多 。 可 以 为 textFile 方法 设置 第 二 个 参数 ， 用 这 个 参数 指定 一 个 不 同 于 默 
认 值 的 分 区 数 ， 这 样 就 可 以 将 分 区 数 设 得 大 一 些 。 比 如 ， 可 以 考虑 将 这 个 参数 设 为 集群 处 


理 颖 总 核 数 o 
文件 的 每 行 包含 一 个 用 户 DD、 一 个 艺术 家 ID 和 播放 次 数 ， 用 空格 分 隔 。 要 计算 用 户 ID 的 
统计 信息 ， 可 以 用 空格 拆 分 每 行 ， 并 将 第 一 个 值 〈 下 标 为 0) 解析 为 一 个 数 。 方 法 stats() 


回 统计 信息 对 象 ， 包 括 最 大 值 和 最 小 值 。 同 样 我们 可 以 处 理 艺术 家 ID: 


高 


rawUserArtistData.map(_.split(' ')(0).toDouble).stats() 
rawUserArtistData.map(_.split(' ')(1).toDouble).stats() 


打印 出 的 结果 统计 信息 显示 ， 最 大 的 用 户 ID 和 艺术 家 ID 分 别 为 2443548 和 10794401， 都 
远 小 于 2147483647， 因 此 没 必 要 对 这 些 ID 做 进一步 处 理 。 


我 们 知道 ， 在 本 章 示 例 中 的 艺术 家 名 字 对 应 模糊 的 数值 ID。 这 些 信 息 包 含 在 artist_data.txt 
中 。 现 在 artist_data.txt 包含 艺术 家 ID 和 名 字 ， 它 们 用 制 表 符 分 隔 。 但 是 简单 地 把 文件 解 
析 成 二 元 组 (Int,String) 会 出 错 : 


val rawArtistData = sc.textFile("hdfs:///user/ds/artist data.txt") 
val artistByID = rawArtistData.map { line => 

val (id, name) = line.span(_ != '\t') 

(id.toINt, name.trim) 


} 


这 里 span() 用 第 一 个 制 表 符 将 一 行 拆 分 成 两 部 分 ， 接 着 将 第 一 部 分 解析 为 艺术 家 ID， 剩 
余部 分 作为 艺术 家 的 名 字 (去 掉 了 空白 的 制 表 符 )。 文 件 里 有 少量 行 看 起 来 是 非法 的 : 有 
些 行 没 有 制 表 符 ， 有 些 行 不 小 心 加 入 了 换行 符 。 这 些 行 会 导致 NumberFormatException， 它 
们 不 应 该 有 输出 结果 。 


然而 ，map() 函数 要 求 对 每 个 输入 必须 严格 返回 一 个 值 ， 因 此 这 里 不 能 用 这 个 函数 。 另 一 
种 可 行 的 方法 是 用 filter() 方法 删除 那些 无 法 解析 的 行 ， 但 这 会 重复 解析 逻辑 。 当 需要 将 
每 个 元 素 映 射 为 零 个、 一 个 或 更 多 结果 时 ， 我 们 应 该 使 用 fLatMap() 国 数 ， 因 为 它 将 每 个 
输入 对 应 的 零 个 或 多 个 结果 组 成 的 集合 简单 展开 ， 然 后 放 入 到 一 个 更 大 的 RDD 中 。 它 可 
以 和 Scala 集合 一 起 使 用 ， 也 可 以 和 Scala 的 0ption 类 一 起 使 用 。0ption 代表 一 个 值 可 以 
不 存在 ， 有 点 儿 像 只 有 1 或 0 的 一 个 简单 集合 ，1 对 应 子 类 Some，0 对 应 子 类 None。 因 此 
在 以 下 代码 中 ， 虽 然 flatMap 中 的 函数 本 可 以 简单 返回 一 个 空 List, 或 一 个 只 有 一 个 元 素 
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的 Ltst， 但 使 用 Some 和 None 更 合理 ， 这 种 方法 简单 明了 。 


val artistByID = rawArtistData.flatMap { line => 


val (id, name) = line.span(_ != '\t') 
if (name.isEmpty) { 
None 
} else { 
try { 
Some((id.toInNnt, name.trim)) 
} catch { 
case e: NumberFormatException => None 
了 
} 
} 


artist_alias.txt 将 拼写 错误 的 艺术 家 ID 或 非 标准 的 艺术 家 ID 映射 为 艺术 家 的 正规 名 字 。 其 
中 每 行 有 两 个 ID ， 用 制 表 符 分 隔 。 这 个 文件 相对 较 小 ， 有 200 000 个 记录 。 有 必要 把 它 转 
成 Map 集合 的 形式 ， 将 “不 良 的 ”艺术 家 ID 映射 到 “和 良好 的 ”ID ， 而 不 是 简单 地 把 它 作 
为 包含 艺术 家 ID 二 元 组 的 RDD。 这 里 又 有 一 点 小 问题 : 由 于 某 种 原因 有 些 行 没 有 艺术 家 


的 第 一 个 ID。 这 些 行将 被 过 污 掉 : 


val rawArtistAlias = sc.textFile("hdfs:///user/ds/artist alias.txt") 


val artistAlias = rawArtistAlias.flatMap { line => 
val tokens = line.split('\t') 
if (tokens(0).isEmpty) { 
None 
} else { 
Some((tokens(0).toInt, tokens(1).toInt)) 


}.collectAsMap() 


比如 ， 第 一 条 将 ID 6803336 上 映射 为 1000010。 接 下 来 我 们 可 以 从 包 


中 进行 查找 : 


artistByID.Lookup(6803336) .head 
artistByID.Lookup(1000010) .head 


显然 ， 这 条 记录 将 “Aerosmith (unplugged)” 映 射 为 “Aerosmith”。 


3.4 构建 第 一 个 模型 


含 艺术 家 名 字 的 RDD 


虽然 现在 数据 集 的 形式 完全 符合 Spark MLlib 的 ALS 算法 实现 的 要 求 ， 但 我 们 还 需要 额外 
做 两 个 转换 。 第 一 ， 如 果 艺 术 家 ID 存在 一 个 不 同 的 正规 ID， 我 们 要 用 别名 数据 集 将 所 有 
的 艺术 家 ID 转换 成 正规 ID。 第 二 ， 需 要 把 数据 转 成 Rating 对 象 ，Rating 对 象 是 ALS 算 
法 实现 对 “有 用户- 产品 - 值 ” 的 抽象 。 除 了 名 字 有 点 儿 不 太 合适 之 外 ，Rating 合适 用 于 隐 
含 数据 。 这 里 还 要 注意 ，MLlib 在 其 API 中 使 用 “产品 ”(product) 这 个 术语 ， 本 章 沿 用 


这 个 术语 。 但 读者 应 该 明白 ， 这 里 的 “产品 ”是 指 艺 术 家 。 底 层 的 模型 不 仅仅 局 限于 产品 
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之 


荐 〈 即 向 人 们 推荐 物品 ) : 


import org.apache.spark.mllib.recommendation._ 
val bArtistAlias = sc.broadcast(artistAlias) 


val trainData = rawUserArtistData.map { line => 
val Array(userID, artistID, count) = line.split(' ').map(_.toInt) 
val finalArtistID = 
bArtistAlias.value.getOrElse(artistID, artistID) © 
Rating(userID, finalArtistID, count) 
}.cache() 


@ 如 果 艺 术 家 存在 别名 ， 取 得 艺术 家 别名 ， 否 则 取得 原始 名 字 。 


虽然 刚 创 建 的 artistALias 是 驱动 程序 本 地 的 一 个 Map， 我 们 仍然 可 以 在 RDD 的 map() 函 
数 中 直接 引用 它 。 这 是 没 问 题 的 ， 因 为 artistAlias 会 随 任务 一 起 被 自动 复制 。 但 是 ， 它 
的 体积 可 不 小 ， 要 消耗 大 约 15 MB 内 存 ， 哪 怕 是 序列 化 形式 最 少 也 得 占用 几 兆 字 节 。 因 为 
一 个 JVM 中 有 许多 任务 ， 所 以 发 送 和 存储 如 此 多 的 副本 大 浪费 了 。 


这 时 ， 我 们 可 以 为 artistAlias 创建 一 个 广播 变量 ， 取 名 为 bArtistAlias。 使 用 广播 变量 
时 ，Spark 对 集群 中 每 个 executor 只 发 送 一 个 副本 ， 并 且 在 内 存 里 也 只 保存 一 个 副本 。 如 
果 有 几 千 个 任务 在 executor 上 并 行 执行 ， 使 用 广播 变量 能 节省 巨大 的 网 络 流量 和 内 存 。 


广播 变量 

Spark 执行 一 个 阶段 (stage) 时 ， 会 为 待 执行 函数 建立 财 包 ， 也 就 是 阶段 所 有 任务 所 
需 信 息 的 二 进 制 形式 。 这 个 闭 包 包括 驱动 程序 里 函数 引用 的 所 有 数据 结构 。Spark 把 这 
个 闭 包 发 送 到 集群 的 每 个 executor 上 。 
当 许 多 任务 需要 访问 同一 个 (不 可 变 的 ) 数据 结构 时 ， 我 们 应 该 使 用 广播 变量 。 它 对 
任务 闭 包 的 常规 处 理 进 行 扩展 ， 使 我 们 能 够 : 
。 在 每 个 executor 上 将 数据 缓存 为 原始 的 Java 对 象 ， 这 样 就 不 用 为 每 个 任务 执行 反 序 

列 化 ; 
。 在 多 个 作业 和 阶段 之 间 缓 存 数 据 。 
举 个 例子 ， 考 虑 自然 语言 处 理应 用 的 场景 ， 这 里 需要 用 到 一 本 大 型 英语 单词 词典 。 广 
播 词 典 使 得 对 每 个 executor 只 要 执行 一 次 传输 数据 : 


val dict = ... 
val bDict = sc.broadcast(dict) 


def query(path: String) = { 
sc.textFile(path).map(l => score(l, bDict.value)) 


调用 cache() 以 指示 Spark 在 RDD 计算 好 之 后 将 其 暂时 存储 在 集群 的 内 存 里 。 这 样 是 有 
益 的 ， 因 为 ALS 算法 是 迭代 的 ， 通 常情 况 下 至 少 要 访问 该 数据 10 次 以 上 。 如 果 不 调 用 
cache()， 那 么 每 次 要 用 到 RDD 时 都 需要 从 原始 数据 中 重新 计算 。 如 图 3-2 所 示 ，Spark UI 
界面 的 Storage 标签 页 显示 了 有 多 少 RDD 被 缓存 起 来 了 ， 占 用 了 多 少 内 存 。 图 中 RDD 占 
用 了 集群 将 近 900 MB 的 内 存 。 


Storage Level Cached Partitions Fraction Cached Size in Memory 
Memory Deserialized 1x Replicated 120 100% 886.8 MB 


图 3-2: Spark UI 的 Storage 标签 页 ， 显 示 缓存 RDD 内 存 使 用 情 ) 
最 后 ， 我 们 构建 模型 ; 

val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0) 
这 样 我 们 就 构建 了 一 个 MatrixFactorizationModel 模型 。 这 个 操作 可 能 要 花费 几 分 钟 或 者 
更 长 时 间 ， 有 具体 时 间 取 决 于 所 用 的 集群 。 有 些 机 器 学 习 模 型 最 终 可 能 只 有 几 个 参数 或 系 
数 ， 相 比 之 下 ， 我 们 这 里 使 用 的 模型 是 巨大 的 。 对 于 每 个 用 户 和 产品 ， 模 型 都 包含 一 个 有 
10 个 值 的 特征 向 量 。 在 本 章 的 示例 中 ， 总 共有 超过 170 万 个 特征 向 量 。 模 型 用 两 个 不 同 的 
RDD， 它 们 分 别 表示 “用 户 - 特征 ”和 “产品 -特征 ”这 两 个 大 型 矩阵 。 


想 看 看 某 些 特征 向 量 ， 试 试 以 下 代码 。 注 意 ， 特 征 向 量 是 一 个 包含 10 个 数值 的 数组 ， 数 
组 的 打印 形式 原本 是 不 可 读 的 。 代 码 用 mkstring() 把 向 量 翻译 成 可 读 的 形式 ， 在 Scala 中 ， 
mkstring() 方法 常用 于 把 集合 元 素 表示 成 以 某 种 形式 分 隔 的 字符 串 。 


model.userFeatures.mapValues(_.mkString(", ")).first() 


(4293, -0.3233030601963864，0.31964527593541325 ， 
0.49025505511361034，0.09000932568001832，0.4429537767744912 ， 
0.4186675713407441，0.8026858843673894，-0.4841300444834003， 
-0.12485901532338621, 0.19795451025931002) 


你 看 到 的 结果 会 有 些 不 同 ， 原 因 是 最 终 的 模型 取决 于 初始 特征 向 量 ， 而 这 些 
初始 特征 向 量 是 随机 选择 的 。 


trainImplicit() 中 的 其 他 参数 都 是 超 参 数 ， 它 们 的 值 将 影响 模型 的 推荐 质量 ， 我 们 稍 后 再 
详细 解释 。 更 重要 的 是 ， 首 先 要 问 : 模型 质量 怎样 ? 模型 能 给 出 好 的 推荐 吗 ? 
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3.5 ”逐个 检查 推荐 结果 


应 该 看 看 模型 给 出 的 艺术 家 推荐 直观 上 是 否 合理 ， 我 们 检查 一 下 用 户 播放 过 的 艺术 家 ， 然 
后 看 看 模型 向 用 户 推荐 的 艺术 家 。 有 具体 来 看 看 用 户 2093760 的 例子 。 现 在 我 们 要 提取 该 用 
户 收听 过 的 艺术 家 ID 并 打印 他 们 的 名 字 ， 这 意味 着 先 在 输入 数据 中 搜索 该 用 户 收听 过 的 
艺术 家 的 ID， 然 后 用 这 些 ID 对 艺术 家 集合 进行 过 滤 ， 这 样 我 们 就 可 以 获取 并 按 序 打印 这 
些 艺 术 家 的 名 字 : 


val rawArtistsForUser = rawUserArtistData.map(_.split(' ')). 
filter { case Array(user，，) => user.toInt == 2093760 } @ 


val existingProducts = 
rawArtistsForUser.map { case Array(_,artist, ) => artist.toInt }. 
collect().toSet @ 


artistByID.filter { case (id, name) => 
existingProducts.contains(id) 
}.values.collect().foreach(println) © 


David Gray 
Blackalicious 
Jurassic 5 

The Saw Doctors 
Xzibit 


@ 找到 用 户 2093760 对 应 的 行 。 

@ 收集 不 同 的 艺术 家 。 

日 过 滤 艺 术 家 ， 取 出 艺术 家 并 打印 。 

用 户 播 放 过 的 艺术 家 既 有 大 众 流 行 音乐 风格 的 也 有 嘻哈 风格 的 。 难 道 用 户 是 Jurassic 5 乐 
队 的 粉丝 ? 记 住 这 是 2005 年 。 提 醒 一 下 : Saw Doctors 是 一 支 典 型 爱尔兰 风格 的 摇滚 乐队 ， 
在 爱尔兰 非常 受 欢迎 。 


类 似 地 ， 我 们 可 以 对 该 用 户 作出 5 个 推荐 : 


val recommendations = model.recommendProducts(2093760, 5) 
recommendations.foreach(println) 


Rating(2093760,1300642,0.02833118412903932) 
Rating(2093760,2814,0.027832682960168387) 
Rating(2093760,1037970,0.02726611004625264) 
Rating(2093760,1001819,0.02716011293509426) 
Rating(2093760,4605,0.027118271894797333) 


结果 由 Rating 对 象 组 成 ， 包 括 用 户 ID (重复 的 )、 艺 术 家 ID 和 一 个 数值 。 虽 然 字段 名 称 
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叫 rating， 但 其 实 不 是 估计 的 得 分 。 对 这 类 ALS 算法 ， 它 是 一 个 在 0 到 1 之 间 的 模糊 值 ， 
值 越 大 ， 推 荐 质量 越 好 。 它 不 是 概率 ， 但 可 以 把 它 理 解 成 对 0/1 值 的 一 个 估计 ，0 表示 用 
户 不 喜欢 播放 艺术 家 的 歌曲 ，! 表示 喜欢 播放 艺术 家 的 歌曲 。 


得 到 所 推荐 艺术 家 的 ID 之 后 ， 就 可 以 用 类 似 的 方法 查 到 艺术 家 的 名 字 : 


val _ recommendedProductIDs = recommendations.map(_.product).toSet 


artistByID.filter { case (id, name) => 
recommendedProductIDs.contains(id) 
}.values.collect().foreach(println) 


Green Day 

Linkin Park 
Metallica 

My Chemical Romance 
System of a Down 


结果 包含 流行 朋克 风格 和 金属 乐风 格 。 我 们 一 眼 就 能 看 出 ， 这 些 推荐 都 不 怎么 样 。 虽 然 推 
荐 的 艺术 家 都 受 人 欢迎 ， 但 好 像 并 没有 针对 用 户 的 收听 习惯 进行 个 性 化 。 


3.6 ”评价 推荐 质量 
当然 ， 刚 才 只 是 对 一 个 用 户 的 推荐 结果 的 一 次 主观 评价 。 除 了 用 户 本 人 ， 其 他 任何 人 都 很 


难 对 推荐 的 好 坏 给 出 定量 描述 。 而 且 ， 想 对 推荐 结果 做 人 工 评分 ， 哪 怕 只 评价 一 小 部 分 结 
果 ， 也 是 不 切实 际 的 。 


我 们 假定 用 户 会 倾向 于 播放 受 人 欢迎 的 艺术 家 的 歌曲 ， 而 不 会 播放 不 受 欢迎 的 艺术 家 的 歌 
曲 ， 这 个 假设 是 合理 的 。 因 此 ， 用 户 的 播放 数据 在 一 定 程度 上 表示 了 “优秀 的 ”和 “糟糕 
的 ”艺术 家 推荐 。 这 个 假设 虽然 还 有 点 儿 问 题 ， 但 是 在 没有 其 他 数据 的 情况 下 ， 也 只 能 这 
么 做 了 。 比 如 ，170 万 个 艺术 家 ， 除 了 之 前 推荐 的 5 个 艺术 家 之 外 没有 播放 过 的 艺术 家 中 ， 
用 户 2093760 很 可 能 对 其 中 某 些 感 兴趣 ， 所 以 不 能 说 没有 听 过 的 艺术 家 都 是 “ 粳 糕 的 ”， 
都 不 能 推荐 。 


如 果 根 据 好 艺术 家 在 推荐 列表 中 排名 应 该 靠 前 这 个 标准 来 评价 推荐 引擎 ， 情 况 会 怎样 ? 推 
存 引擎 这 类 的 评分 系统 有 几 个 指标 ， 这 个 指标 是 其 中 之 一 。 问 题 是 如 果 将 “好 ”的 标准 定 
义 为 “用 户 收听 过 艺术 家 ”， 那 么 推荐 系统 在 输入 中 已 经 利用 了 这 些 信 息 。 它 可 以 简单 把 
用 户 以 前 听 过 的 艺术 家 作为 最 靠 前 的 推荐 结果 返回 ， 而 这 样 就 能 得 到 最 高 的 评价 。 然 而 这 
是 无 益 的 ， 因 为 推荐 引擎 的 作用 在 于 向 用 户 推荐 他 从 来 没 听 过 的 艺术 家 。 


为 了 使 推荐 变 得 有 用 ， 可 以 从 数据 集中 拿 出 一 些 艺 术 家 的 播放 数据 放 在 一 边 ， 在 整个 ALS 
模型 构建 过 程 中 并 不 使 用 这 些 数据 。 这 些 放 在 一 边 的 数据 中 的 艺术 家 可 以 作为 每 个 用 户 的 
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优秀 推荐 ， 但 这 些 数 据 并 没有 呈 给 推荐 引擎。 让 推荐 引擎 对 模型 中 所 有 的 产品 进行 评分 ， 
然后 对 比 检查 放 在 一 边 的 艺术 家 的 推荐 排名 情况 。 理 想 情 况 下 ， 推 荐 引擎 对 这 些 艺 术 家 的 
推荐 排名 应 该 最 靠 前 或 接近 最 靠 前 。 


接着 我 们 就 可 以 计算 推荐 引 警 的 得 分 ， 方 法 是 比较 放 在 一 边 的 艺术 家 推荐 排名 和 整个 数据 
集中 的 艺术 家 的 推荐 排名 〈 在 实践 中 ， 我 们 通常 只 比较 一 小 部 分 ， 因 为 需要 比较 的 艺术 家 
组 合 可 能 非常 多 )。 对 比 组 合 中 放 在 一 边 的 艺术 家 排名 高 的 组 合 所 占 比 例 就 是 模型 的 得 分 。 
1.0 代表 最 好 ，0.0 代表 最 差 ，0.5 是 随机 给 艺术 家 排名 的 模型 的 期 望 得 分 。 


这 个 指标 和 一 个 信息 检索 概念 直接 相关 ， 这 个 概念 就 是 观测 者 操作 特性 (Receiver 
Operating Characteristic, ROC, http://en.wikipedia.org/wiki/Receiver_operating_characteristic) 
曲线 。 上 一 段 中 的 指标 等 于 ROC 曲线 下 区 域 的 面积 ， 称 为 AUC (Area Under the Curve)。 
可 以 把 AUC 看 成 是 随机 选择 的 好 推荐 比 随机 选择 的 差 推 荐 的 排名 高 的 概率 。 


AUC 指标 也 用 于 评价 分 类 器 。MLlib 的 BinaryClassificationMetrics 类 实现 了 这 个 指标 
及 相关 方法 。 对 于 推荐 引擎 ， 为 每 个 用 户 计算 AUC 并 取 其 平均 值 ， 最 后 的 结果 指标 稍 有 
不 同 ， 可 称 为 “平均 AUC”。 


其 他 和 评分 系统 相关 的 评价 指标 在 RankingMetrics 类 中 实现 。 这 些 指 标 包 括 准 确 率 、 召 回 
率 和 平均 准确 度 (Mean Average Precision, MAP,， https://en.wikipedia.org/wiki/Information_ 
retrieval)。MAP 也 常用 ， 它 更 强调 排 在 最 前 面 的 推荐 的 质量 。 但 是 ，AUC 作为 一 种 普遍 
和 综合 的 测量 整体 模型 输出 质量 的 手段 ， 是 我 们 采用 的 。 


事实 上 ， 取 出 一 部 分 数据 来 选择 模型 并 评估 模型 准确 度 是 所 有 机 器 学 习 的 通用 做 法 。 通 常 
数据 被 分 成 三 个 子 集 : 训练 集 、 检 验 (Cross-Validation，CV) 集 和 测试 集 。 在 本 章 的 初步 
示例 中 ， 我 们 只 用 了 两 个 数据 集 : 训练 集 和 检验 集 。 这 对 于 模型 选择 来 说 已 经 足够 了 。 第 
4 章 会 进一步 讨论 这 个 概念 并 介绍 测试 集 。 


3.7 计算 AUC 


本 书 附带 的 源 代码 给 出 了 处 理 AUC 的 实现 ， 很 复杂 。 源 代码 的 注释 做 了 一 定 程度 的 解释 ， 
这 里 我 们 就 不 重复 了 。 该 实现 接受 一 个 检验 集 CV 和 一 个 预测 函数 ，CYV 集 代 表 每 个 用 户 
对 应 的 “正面 的 ”或 “好 的 ”艺术 家 。 预 测 函 数 把 每 个 “用 户 - 艺术 家 ”对 转换 为 一 个 预 
测 Rating。Rating 包含 了 用 户 、 艺 术 家 和 一 个 数值 ， 这 个 值 越 高 ， 代 表 推 荐 的 排名 越 高 。 


为 了 利用 输入 数据 ， 我 们 需要 把 它 分 成 训练 集 和 检验 集 。 训 练 集 只 用 于 训练 ALS 模型 ， 检 
验 集 用 于 评估 模型 。 这 里 我 们 将 90% 的 数据 用 于 训练 ， 剩 余 的 10% 用 于 交叉 检验 ; 


import org.apache.spark.rdd._ 


def areaUnderCurve( 


44 | 第 3 章 


positiveData: RDD[Rating] ， 
bALLItemIDs: Broadcast[Array[Int]], 
predictFunction: (RDD[(Int,Int)] => RDD[Rating]))= { 


We 


val allData = buildRatings(rawUserArtistData, bArtistAlias) © 

val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1)) 
trainData.cache() 

cvData.cache() 


val allItemIDs = allData.map(_.product).distinct().collect() @ 
val bAllItemIDs = sc.broadcast(allItemIDs) 


val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0) 
val auc = areaUnderCurve(cvData, bAllItemIDs, model.predict) 


@ 这 个 函数 在 附带 的 源 代码 中 定义 。 
@ 去 重 并 收集 给 驱动 程序 。 


注 意 : areaUnderCurve() 把 一 个 苞 数 作为 它 的 第 三 个 参数 。 这 里 传 入 的 是 
MatrixFactorizationModel 的 predict()， 很 快 我 们 会 把 它 替换 成 其 他 方法 。 


结果 是 大 约 0.96。 这 个 结果 好 吗 ? 它 肯 定 比 随机 推荐 的 0.5 要 好 。 模 型 得 分 0.96 接近 最 高 


站 


分 1.0。 一 般 AUC 超过 0.9 是 高 分 。 


可 以 从 数据 集中 选择 另外 的 90% 作为 训练 集 ， 这 样 就 可 以 多 次 进行 模型 评估 。 得 到 的 
AUC 值 的 平均 可 能 会 更 好 地 估计 算法 在 数据 集 上 的 表现 。 实 际 中 一 个 第 用 的 做 法 是 把 数据 
集 分 成 上 个 大 小 差不多 的 子 集 ， 用 -1 个子 集 做 训练 ， 在 剩 下 的 一 个 子 集 上 做 评估 。 我 们 
把 这 个 过 程 重复 次， 每 次 用 一 个 不 同 的 子 集 做 评估 。 这 种 做 法 称 为 k 折 交叉 验证 (k-fold 
cross-validation，https://en.wikipedia.org/wiki/Cross-validation_(statistics)) 算法 。 为 了 简便 ， 
我 们 在 示例 中 并 没有 实现 k 折 交叉 验证 技术 。 但 MLlib 的 辅助 方法 MLUtils.kFold() 在 一 
定 程度 上 提供 了 对 这 项 技术 的 支持 。 


有 必要 把 上 述 方法 和 一 个 更 简单 方法 做 一 个 基准 比 对 。 举 个 例子 ， 考 虑 下 面 的 推荐 方法 : 
向 每 个 用 户 推 荐 播放 最 多 的 艺术 家 。 这 个 策略 一 点 儿 都 不 个 性 化 ， 但 它 很 简单 ， 也 可 能 有 
效 。 定 义 这 个 简单 预测 函数 并 评估 它 的 AUC 得 分 : 


def predictMostListened( 
sc: SparkContext, 
train: RDD[Rating])(allData: RDD[(Int,Int)]) = { 


val bListenCount = sc.broadcast( 
train.map(r => (r.product, r.rating)). 


reduceByKey(_ + _).collectAsMap() 


allData.map { case (user, product) => 
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Rating( 
user, 
product, 
bListenCount.value.getOrElse(product, 0.0) 
) 
} 
} 


val auc = areaUnderCurve( 
cvData, bAllIitemIDs, predictMostListened(sc, trainData)) 


这 里 再 次 显示 了 Scala 语法 的 特别 之 处 。 这 里 函数 定义 看 似 有 两 个 参数 列表 。 调 用 函数 并 
应 用 前 两 个 参数 得 到 了 一 个 偏 应 用 函数 (partially applied function)， 这 个 函数 本 身 又 带 一 
个 参数 (allData) 并 返回 预测 结果 。predictMostListened(sc，trainData) 的 返回 结果 是 
一 个 函数 。 


结果 得 分 大 约 是 0.93。 这 意味 对 AUC 这 个 指标 ， 非 个 性 化 的 推荐 表现 已 经 不 错 了 。 看 到 
我 们 目前 构建 的 模型 打败 了 简单 推荐 方法 ， 感 觉 还 是 不 错 的 。 但 模型 还 有 没有 可 能 做 得 更 
好 呢 ? 


3.8 选择 超 参数 
到 目前 为 止 ， 我 们 并 没有 对 给 出 的 超 参 数值 做 任何 说 明 。 这 些 值 不 是 由 算法 学 习 得 到 的 ， 
而 是 由 调用 者 指定 的 。ALS.trainImplicit() 的 参数 包括 以 下 几 个 。 


。 rank = 10 
模型 的 潜在 因素 的 个 数 ， 即 “用 户 -特征 ”和 “产品 -特征 ”和 矩阵 的 列 数 ， 一 般 来 说 ， 
它 也 是 矩阵 的 阶 。 


。 iterations =5 


和 琵 阵 分 解 迁 代 的 次 数 ， 迭 代 的 次 数 越 多 ， 花 费 的 时 间 越 长 ， 但 分 解 的 结果 可 能 会 更 好 。 


。 Lambda = 0.01 
标准 的 过 拟 合 参数 ， 值 越 大 越 不 容易 产生 过 拟 合 ， 但 值 太 大 会 降低 分 解 的 准确 度 。 


TI 


。 alLpha = 1.0 
控制 矩阵 分 解 时 ， 被 观察 到 的 “用 户 -产品 ”交互 相对 没 被 观察 到 的 交互 的 权重 。 


可 以 把 rank、Lanbda 和 alpha 看 作为 模型 的 超 参 数 。(iterations 更 像 是 对 分 解 过 程 使 用 
的 资源 的 一 种 约束 。) 这 些 值 不 会 体现 在 MatrixFactorizationModel 的 内 部 矩阵 中 ， 这 些 算 
阵 只 是 参数 ， 其 值 由 算法 选 定 。 而 rank、Lambda 和 atpha 这 几 个 超 参数 是 构建 过 程 本 身 的 
参数 。 


Te 


刚才 列表 中 给 出 的 超 参数 值 不 一 定 是 最 优 的 。 如 何 选 择 好 的 超 参 数值 在 机 器 学 习 中 是 个 普 
记性 问题 。 最 基本 的 方法 是 尝试 不 同 值 的 组 合并 对 每 个 组 合 评估 某 个 指标 ， 然 后 挑选 指标 
值 最 好 的 组 合 。 


在 下 面 的 示例 中 ， 我 们 尝试 了 8 中 可 能 的 组 合 : rank = 10 或 50、Lambda = 1.0 或 0.0001， 
以 及 alpha = 1.0 或 40.0。 这 些 值 当然 也 是 猜 的 ， 但 它们 能 够 覆盖 很 大 范围 的 参数 值 。 各 
种 组 合 的 结果 按 AUC 得 分 从 高 到 底 排序 : 


val evaluations = 
for (rank <- Array(10, 50); 
Lambda <- Array(1.0, 0.0001); 
alpha <- Array(1.0, 40.0)) © 
yield { 
val model = ALS.trainImplicit(trainData, rank, 10, lambda, alpha) 
val auc = areaUnderCurve(cvData, bAllItemIDs, model.predict) 
((rank, lambda, alpha), auc) 
} 


evaluations.sortBy(_._2).reverse.foreach(println) @ 


((50,1.0,40.0),0.9776687571356233) 
((50,1.0E-4,40.0),0.9767551668703566) 
((10,1.0E-4,40.0),0.9761931539712336) 
((10,1.0,40.0),0.976154587705189) 
((10,1.0,1.0),0.9683921981896727) 
((50,1.0,1.0),0.9670901331816745) 
((10,1.0E-4,1.0),0.9637196892517722) 
((50,1.0E-4,1.0),0.9543377999707536) 


-4,1. 


@ 可 以 理解 为 三 层 髓 套 for 循环 。 
@ 根据 第 二 个 值 (AUC) 降序 排序 并 打印 。 


这 里 的 for 语法 是 Scala 中 写 舱 套 循环 的 一 种 方式 ， 相 当 于 一 个 aLpha 循环 
外 面 肯 套 一 个 Llambda 循环 外 面 再 于 套 一 个 rank 循环 。 


有 意思 的 是 ,参数 alpha 取 40 的 时 候 看 起 来 总 是 比 取 1 表现 好 (为 了 满足 读者 的 好 奇 ， 顺 
便 提 一 下 ，40 是 前 面 提 到 的 最 初 ALS 论文 的 默认 值 之 一 )。 这 说 明了 模型 在 强调 用 户 听 过 
什么 时 的 表现 要 比 强 调用 户 没 听 过 什么 时 要 好 。 


lambda 取 较 大 的 值 看 起 来 结果 要 稍微 好 一 些 。 这 表明 模型 有 些 受 过 拟 合 的 影响 ， 因 此 需要 
一 个 较 大 的 Lanbda 值 以 防止 过 度 精确 拟 合 每 个 用 户 的 稀 玻 输入 数据 。 第 4 章 将 进一步 讨论 
过 拟 合 。 
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特征 值 的 个 数 影响 不 是 很 明显 ， 在 分 数 最 高 的 组 合 和 分 数 最 低 的 组 合 中 均 出 现 特征 值 个 
数 取 50 的 情况 ， 虽 然 分 数 绝对 值 变 化 也 不 大 。 这 可 能 表示 正确 的 特征 值 个 数 实际 上 比 50 
大 ， 而 特征 值 个 数 太 小 时 无 论 特征 值 个 数 是 多 少 区 别 都 不 大 。 

当然 我 们 可 以 重复 上 述 过 程 ， 试 试 不 同 的 取 值 范围 或 试 试 更 多 值 。 这 是 超 参 数 选择 的 一 种 
暴力 方式 。 但 是 在 当今 这 个 世界 ， 这 种 简单 粗暴 的 方式 变 得 相对 可 行 : 集群 常常 有 儿 TB 
内 存 ， 成 百 上 千 个 核 ，Spark 之 类 的 框架 可 以 利用 并 行 计 算 和 内 存 来 提高 速度 。 


严格 来 说 ， 理 解 超 参 数 的 含义 其 实 不 是 必需 的 ， 但 知道 这 些 值 的 典型 范围 有 助 于 找到 一 个 
合适 的 参数 空间 开始 搜索 ， 这 个 空间 不 宜 太 大 ， 也 不 能 太 小 。 


3.9 产生 推荐 


现在 用 上 一 节 中 得 到 用 最 优 超 参数 继续 下 面 的 工作 ， 看 看 新 模型 对 ID 为 2093760 的 用 户 
给 出 什么 样 推荐 : 


50 Cent 
Eminem 
Green Day 
U2 
[unknown] 


令 人 欣慰 的 是 ， 现 在 给 出 的 推荐 要 更 合理 一 些 ， 其 中 包含 了 两 位 嘻哈 风格 的 和 艺术家。 推荐 
列表 中 [unknown] 明显 不 是 一 个 艺术 家 。 查 看 原始 数据 集会 发 现 [unknown] 出 现 了 429 447 
次 ， 几 乎 可 以 排 到 前 100 了 。[unknown] 是 没有 艺术 家 信息 的 播放 记录 的 一 个 默认 值 ， 可 
能 是 某 个 客户 端 提 供 的 。 这 个 信息 是 没有 用 的 ， 下 次 我 们 应 该 在 开始 的 时 候 把 它 扔 掉 。 这 
又 再 次 说 明 ， 数 据 科学 实践 往往 是 迭代 式 的 ， 每 个 阶段 我 们 对 数据 都 有 新 发 现 。 


这 个 模型 可 以 对 所 有 用 户 产生 推荐 。 它 可 以 用 于 批 处 理 ， 批 处 理 每 隔 一 个 小 时 或 更 短 的 时 
间 为 所 有 用 户 重 算 模型 和 推荐 结果 ， 具 体 时 间 间 隔 取决 于 数据 规模 和 集群 速度 。 


但 是 目前 Spark MLlib 的 ALS 实现 并 不 支持 向 所 有 用 户 给 出 推荐 。 该 实现 可 以 每 次 对 一 个 
用 户 进行 推荐 ， 这 样 每 一 次 都 会 启动 一 个 短 的 几 秒 钟 的 分 布 式 作 业 。 这 适合 对 小 用 户 群 体 
快速 重 算 推荐 。 下 面 对 数据 中 的 100 个 用 户 进行 推荐 并 打印 结果 : 


val someUsers = allData.map(_.user).distinct().take(100) © 
val someRecommendations = 

someUsers.map(userID => model.recommendProducts(userID, 5)) 外 
someRecommendations.map( 

recs => recs.head.user + " -> " + recs.map(_.product).mkString(", ") © 
).foreach(println) 


@ 把 100 个 (不 同 的) 用 户 复制 到 驱动 程序 端 。 


@ map() 在 这 里 是 一 个 本 地 Scala 运算 。 
@ mkString 用 分 隔 符 把 集合 中 的 元 素 连 接 成 一 个 字符 串 。 


现在 只 是 把 推荐 结果 打印 出 来 。 结 果 也 可 以 写 到 外 部 存储 上 ， 比 如 写 到 HBase 上 ， 这 样 可 
以 利用 HBase (http://hbase.apache.org/) 在 运行 时 提供 快速 查询 。 


有 意思 的 是 ， 整 个 流程 也 可 能 用 于 向 艺术 家 推荐 用 户 。 这 可 用 于 回答 类 似 如 下 问题 :“ 艺 
术 家 XX 的 新 专辑 哪 100 个 用 户 可 能 最 感 兴趣 ? ”在 向 艺术 家 推荐 用 户 时 ， 只 需要 在 解析 输 
入 的 时 候 对 换 用 户 和 艺术 家 字段 就 可 以 了 。 


rawUserArtistData.map { line => 


val userID = tokens(1).toInt @ 
val artistID = tokens(0).toInt @ 


ee 


@ 把 艺术 家 当成 “用 户 ”。 
@ 把 用 户 当成 “艺术 家 ”。 
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显然 我 们 可 以 花 多 点 儿 时 间 来 对 模型 参数 进行 调 优 ， 找 出 输入 数据 中 的 异常 情况 ， 比 如 说 
有 的 艺术 家 的 名 字 为 [unknown]， 并 修复 这 些 问题 。 


举 个 例子 来 说 ， 对 播放 次 数 进行 快速 分 析 就 会 发 现 ，ID 为 2064012 的 用 户 播放 ID 为 
4468 的 艺术 家 高 达 439 771 次 ， 这 太 让 人 吃惊 了 。 假 定 每 首 歌 曲 长 度 为 4 分 钟 ， 如 果 播 放 
“Chop Suey!” 和 “B.Y.O.B.” 这 样 的 热门 歌曲 ，33 年 也 完成 不 了 。 因 为 乐队 在 1998 年 才 
开始 录制 唱片 ， 所 以 如 果 同 时 播放 4 到 5 首 单 曲 ， 也 要 7 年 。 所 以 这 肯定 是 垃圾 数据 、 数 
据 错 误 或 者 某 类 的 实际 数据 问题 ， 这 些 问 题 生产 系 统 必 须要 解决 。 


ALS 不 是 唯一 的 推荐 引 警 算法。 目前 它 是 Spark MLlib 唯一 支持 的 算法 。 但 是 ， 对 于 非 
隐 含 数据 ，MLlib 也 支持 一 种 ALS 的 变 体 ， 它 的 用 法 和 ALS 是 一 样 的 ， 不 同 之 处 在 于 模 
型 用 方法 ALS.train() 构建 。 它 适用 于 给 出 评分 数据 而 不 是 次 数 数据 。 比 如 ， 如 果 数 据 集 
是 用 户 对 艺术 家 的 打分 ， 值 从 1 到 5， 那么 用 这 种 变 体 就 很 合适 。 不 同 推荐 方法 返回 的 
Rating 对 象 结果 ， 其 中 rating 字段 是 估计 的 打分 。 


今后 Spark MLlib 或 其 他 库 可 能 支持 其 他 推荐 算法 。 


在 生产 环境 下 ， 推 荐 引擎 需要 实时 给 出 推荐 ， 因 为 它们 常用 于 电 商 网 站 。 在 这 类 环境 中 ， 
客户 浏览 商品 页 面 时 需要 推荐 引擎 频繁 给 出 推荐 。 像 前 面 提 到 的 那样 ， 预 先 计算 并 把 得 到 
的 推荐 结果 存 到 一 个 NoSQL 存储 中 ， 在 大 规模 情况 下 不 失 为 一 种 合理 的 策略 。 这 种 做 法 
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的 一 个 缺点 是 需要 对 所 有 可 能 提供 快速 推荐 的 用 户 进行 预计 算 ， 但 这 些 用 户 可 能 是 任何 一 
个 用 户 。 举 例 来 讲 ， 即 使 100 万 个 用 户 中 每 天 只 有 10 000 个 访问 网 站 ， 我 们 也 要 为 100 万 
个 用 户 做 预计 算 ， 其 中 99% 的 工作 是 浪费 的 。 


如 果 能 随时 按 需 计 算出 推荐 结果 就 更 好 了 。 虽 然 我 们 可 以 用 MatrixFactorizationModel 
为 单个 用 户 计算 推荐 结果 ， 它 却 还 是 一 个 分 布 式 运算 ， 需 要 花费 几 秒 钟 。 因 为 
HatrixFactorizationModel 非常 大 ， 所 以 实际 上 是 个 分 布 式 数据 集 。 其 他 模型 情况 有 些 不 
同 ， 它 们 可 以 更 快 地 给 出 评分 。Oryx 2 (https://github.com/OryxProject/oryx) 之 类 的 项 目 
试图 实现 实时 按 需 推荐 ， 其 底层 用 MLlib 之 类 的 库 ， 但 用 高 效 的 方式 访问 内 存 中 的 模型 
数据 。 
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预测 是 非常 困难 的 ， 更 别提 预测 未 来 。 
Niels Bohr 


19 世纪 末 ， 英 国 科学 家 弗 兰 西 斯 : 高 尔 顿 (Francis Galton， 达 尔 文 的 表 兄 ) 竖 士 忙于 测量 
豌豆 和 人 类 的 大 小 来 寻找 规律 。 他 发 现 大 豌豆 的 子 代 一 般 会 大 于 子 代 豌豆 的 平均 大 小 (人 
类 也 如 此 )。 这 没有 什么 好 奇怪 的 。 但 是 ， 大 豌豆 的 子 代 通 常 比 它 们 的 父 代 要 小 。 对 人 类 
而 言 ， 身 高 7 英尺 的 篮球 和 运动员 的 孩子 很 可 能 比 一 般 人 要 高 ， 但 是 身高 达到 7 英尺 的 可 能 
性 却 较 小 。 


高 尔 顿 这 个 研究 的 另 一 个 成 果 是 ， 他 通过 绘制 子 代 大 小 与 父 代 大 小 的 关系 图 ， 发 现 二 者 之 
间 存 在 近似 的 线性 关系 。 父 代 吏 豆 大 ， 子 代 吏 豆 也 大 ， 但 要 上 略 小 于 父 代 吏 豆 ， 父 代 吏 豆 
小 ， 子 代 豌 豆 也 小 ， 但 要 略 大 于 父 代 豌豆 。 因 此 曲线 斜率 为 正 但 小 于 1， 高 尔 顿 把 这 种 现 
象 称 为 趋 均 数 回归 (regression to the mean) ， 此 名 称 被 沿用 至 今 。 


依 我 看 ， 这 条 线 就 是 早期 的 预测 模型 ,尽管 当时 还 没有 人 这 么 提出 。 这 条 线 把 两 个 值 关 联 
在 一 起 ， 意 味 着 知道 了 一 个 值 就 大 体 知道 了 另 一 个 值 。 如 果 知 道 一 颗 新 豌豆 的 大 小 ， 根 据 
这 种 关联 关系 ， 我 们 就 能 更 准确 估计 其 后 代 的 大 小 ， 这 样 做 出 的 估计 要 比 简单 假设 “ 子 
代 ” 的 大 小 接近 于 “ 父 代 或 同类 ”更 准确 。 
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4.1 回归 简介 


经 过 随后 一 百 多 年 统计 学 的 发 展 ， 随 着 现代 机 器 学 习 和 数据 科学 的 出 现 ， 我 们 依旧 把 从 
“ 某 些 值 ”预测 “另外 某 个 值 ”的 思想 称 为 回归 (http://en.wikipedia.org/wiki/Regression_ 
analysis) ， 即 使 它 已 经 和 “向 均 数 回归 ”没有 任何 关系 ， 也 跟 “ 向 后 移动 ”不 沾边 。 回 归 
技术 和 分 类 (http://en.wikipedia.org/wiki/Statistical_classification) 技术 关系 紧密 。 通 常 来 
讲 ， 回 归 是 预测 一 个 数值 型 数量 (numeric quantity) ， 比 如 大 小 、 收 入 和 温度 ， 而 分 类 则 指 
预测 标号 〈label) 或 类 别 (category)， 比 如 判断 邮件 是 否 为 “垃圾 邮件 ”， 拼 图 游戏 的 图 案 
是 否 是 “ 猫 ”。 

将 回归 和 分 类 联系 在 一 起 是 因为 两 者 都 可 以 通过 一 个 (或 更 多 ) 值 预测 另 一 个 〈 或 更 
多 ) 值 。 为 了 能 够 作出 预测 ， 两 者 都 需要 从 一 组 输入 和 输出 中 学 习 预 测 规则 。 在 学 习 过 
程 中 ， 需 要 告诉 它们 问题 以 及 问题 的 答案 。 因 此 ， 它 们 都 属于 所 谓 的 监督 学 习 (http:// 


en.wikipedia.org/wiki/Supervised_learning) 。 


分 类 和 回归 是 分 析 预 测 中 最 古老 的 话题 ， 也 是 被 研究 得 最 多 的 一 类 问题 。 分 析 用 的 程序 包 
(package) 和 程序 库 (library) 中 的 多 数 算法 ， 都 属于 分 类 和 回归 技术 ， 比 如 支持 向 量 机 、 
逻辑 回归 、 朴 素 贝 叶 斯 算法 、 神 经 网 络 和 座 度 学 习 。 第 3 章 介绍 的 推荐 系统 ， 相 对 容易 解 
释 ， 但 那 也 是 机 器 学 习 领 域 中 一 个 相对 比较 新 和 比较 独立 的 子 课题 。 


本 章 将 重点 关注 决策 树 算 法 (http://en.wikipedia.org/wiki/Decision_tree) 和 它 的 扩展 随机 
决策 森林 算法 (http:Wen.wikipedia.org/wiki/Random_forest) ， 这 两 个 算法 灵活 且 应 用 广 
泛 ， 既 可 用 于 分 类 问题 ， 也 可 用 于 回归 问题 。 更 让 人 兴奋 的 是 ， 它 们 可 以 帮助 我 们 预测 
未 来 ， 至 少 是 预测 我 们 尚 不 肯定 的 事情 。 比 如 说 ， 根 据 线 上 行为 来 预测 购买 汽车 的 概率 ， 
根据 用 词 预 测 邮件 是 否 是 垃圾 邮件 ， 根 据 地 理 位 置 和 土壤 的 化 学 成 分 预测 哪 块 耕地 的 产 


量 可 能 更 高 。 


4.2 ” 问 量 和 特征 

为 了 便于 解释 本 童 选择 的 数据 集 和 要 着 重 介绍 的 算法 ， 以 及 为 了 便于 下 一 步 介 绍 回归 和 分 
类 的 原理 ， 有 必要 先 对 描述 输入 和 输出 的 术语 做 个 简短 定义 。 

我 们 想 根据 今天 的 天 气 预测 明天 的 气温 。 这 个 没有 问题 ,但 “今天 的 天 气 ” 是 个 宽泛 的 概 
念 ， 在 用 于 机 器 学 习 算 法 之 前 我 们 需要 对 它 进行 结构 化 。 


“今天 的 天 气 ” 中 某 些 “ 特 征 ” 确 实 可 能 可 以 用 来 预测 明天 的 气温 ， 比 如 : 


。 今天 的 最 低 气温 
。 今天 的 最 高 气温 


。 今天 的 平均 温度 
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。 今天 是 多 云 ， 有 雨 还 是 晴朗 
。 今天 有 几 家 天 气 预 报 站 预报 明天 有 寒流 


这 些 特征 有 时 也 被 称 为 维度 、 预 测 指标 或 简单 地 称 为 变量 。 以 上 每 个 特征 都 可 以 被 量化 。 
比如 气温 高 低 可 以 有 用“ 摄氏度” 度量， 温度 可 以 用 0~1 范围 内 的 小 数 来 度量 ， 天 气 类 型 可 
以 用 “多 云 "“ 有 十 ”和 “晴朗 ”来 标示 。 天 气 预报 的 个 数 则 是 个 整数 。 因 此 今天 的 天 气 
可 以 简化 为 一 个 值 列表 : 13.1，19.0，0.73， 多 云 ,1。 


这 五 个 特征 值 按 顺 序 排列 ， 就 是 所 谓 的 特征 向 量 ， 它 可 用 于 描述 每 天 的 天 气 。 这 种 用 法 与 
线性 代数 里 的 “向 量 ”比较 类 似 ， 但 稍微 不 同 的 是 ， 这 里 我 们 所 说 的 向 量 值 可 以 包含 非 数 
值 ， 有 些 值 甚至 可 以 为 空 。 


这 些 特征 值 的 类 型 各 有 不 同 。 前 两 个 特征 用 “摄氏 度 ” 来 计量 ， 第 三 个 特征 则 是 个 不 带 单 
位 的 小 数 。 第 四 个 根本 就 不 是 数值 ， 第 五 个 是 一 个 非 负 整数 。 


为 了 便于 讨论 ， 本 书 将 特征 只 分 为 两 大 类 : 类 别 型 特征 (categorical feature) 和 数值 型 特 


征 (numeric feature)。 


这 里 的 数值 型 特征 是 指 可 以 用 数值 进行 量化 的 特征 ， 并 且 对 这 些 特征 排序 是 有 意义 的 。 比 
如 ,今天 最 高 气温 为 23 摄氏 度 ， 它 比 昨天 最 高 气温 22 摄氏 度 要 高 ， 这 种 说 法 是 有 意义 
的 。 除 天 气 类 型 外 ， 前 面 提 到 的 所 有 特征 都 是 数值 型 特征 。 晴朗 ”这 类 词语 不 是 数字 ， 
没有 大 小 顺序 可 言 。“ 多 云 比 晴朗 大 ”这 种 说 法 是 没有 意义 的 。 天 气 类 型 就 属于 类 别 型 特 
征 ， 类 别 型 特征 只 能 在 几 个 离散 值 中 取 一 个 。 


4.3 ”样本 训练 


为 了 进行 预测 ， 学 习 算 法 需要 在 大 量 数据 上 进行 训练 。 这 需要 从 历史 数据 中 获取 大 量 的 数 
据 输 入 和 相应 的 已 知 的 正确 的 数据 输出 。 比 如 ， 在 示例 中 我 们 会 向 学 习 算 法 给 出 如 下 样本 
数据 某 一 天 ， 气 温 12~16 摄氏 度 ， 温 度 10%， 上 晴朗， 没有 寒流 预报 ， 第 二 天 最 高 气温 为 
17.2 摄氏 度 。 如 果 这 样 的 样本 数量 足够 多 ， 学 习 算 法 就 可 能 学 会 以 一 定 准 确 度 来 预测 第 二 


天 最 高 气温 。 


特征 向 量 为 学 习 算 法 的 输入 提供 了 一 种 结构 化 的 方式 (如 输入 : 12.5,15.5,0.10, 睛 朗 ,0)。 
预测 的 输出 ( 即 目 标 ) 也 被 称 为 一 个 特征 ， 它 是 一 个 数值 型 特征 : 17.2。 


通常 我 们 把 目标 作为 特征 向 量 的 一 个 附加 特征 。 因 此 可 以 把 整个 训练 样本 列 示 为 : 
12.5,15.5,0.10, 晴朗 ,0,17.2。 所 有 这 些 样本 的 集合 称 为 训练 集 。 


读者 要 注意 ， 回 归 和 分 类 的 区 别 在 于 : 回归 问题 的 目标 为 数值 型 特征 ， 而 分 类 问题 的 目标 
为 类 别 型 特征 。 并 不 是 所 有 的 回归 或 分 类 算法 都 能 够 处 理 类 别 型 特征 或 类 别 型 目标 ， 有 些 
算法 只 能 处 理 数值 型 特征 。 
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夺 kr > 
4.4 决策 树 和 决策 森林 
事实 证 明 ， 决 策 树 算法 家 族 能 自然 地 处 理 类 别 型 和 数值 型 特征 。 决 策 树 算法 容易 并 行 化 。 
它们 对 数据 中 的 离 群 点 (outlier) 具有 和 鲁 棒 性 (robust) ， 这 意味 着 一 些 极端 或 可 能 错误 的 
数据 点 根本 不 会 对 预测 产生 影响 。 算 法 可 以 接受 不 同类 型 和 量 纲 的 数据 ， 对 数据 类 型 和 尺 
度 不 相同 的 情况 不 需要 做 预 处 理 或 规范 化 。 数 据 类 型 和 尺度 不 相同 的 问题 在 第 5 章 会 再 次 
涉及 。 


决策 树 可 以 推广 为 更 强大 的 决策 森林 (random decision forest) 算法 。 由 于 决策 森林 算法 
的 灵活 性 ， 我 们 认为 有 必要 在 本 章 介绍 它 。 本 章 将 会 把 Spark MLlib 的 DecisionTree 和 
RandomForest 算法 实现 应 用 到 一 个 数据 集 上 。 


基于 决策 树 的 算法 还 有 一 个 优点 ， 那 就 是 理解 和 推理 起 来 相对 直观 。 实 际 上 ， 我 们 在 日 党 
生活 中 大 概 都 无 意 间 用 过 决策 树 所 体现 的 推理 方法 。 举 个 例子 ， 早 上 我 正 要 坐 下 来 喝 杯 加 
奶 咖 啡 ， 在 打 定 主意 在 咖啡 中 加 牛奶 之 前 ， 我 会 预测 : 牛奶 有 没有 变质 呢 ? 我 不 确定 牛奶 
是 否 变质 。 于 是 我 会 检查 一 下 牛奶 的 建议 食用 期 。 如 有 果 建 议 食用 期 没 过 ， 我 会 预测 牛奶 设 
有 坏 。 如 果 已 经 超过 建议 食用 期 三 天 ， 我 会 预测 牛奶 已 经 坏 了 。 如 果 超 过 建议 食用 期 3 天 
之 内 ， 我 会 闻 一 下 。 如 果 和 牛奶 的 气味 有 点 儿 异 常 ， 我 会 预测 牛奶 已 经 坏 了 ， 否 则 就 没 坏 。 


这 一 系列 的 “是 / 否 ” 判 断 就 是 决策 树 算法 所 体现 的 预测 过 程 。 每 个 判断 会 走 到 两 个 分 支 
中 的 一 个 ， 非 此 即 彼 ， 如 图 4-1 所 示 。 


牛奶 过 建议 食用 期 了 吗 ? 


牛奶 超过 建议 
食用 期 3 天 了 吗 ? 


闻 起 来 有 异味 吗 ? 


图 4-1: 决策 树 : 牛奶 坏 了 吗 ? 


前 面 提 到 的 规则 是 我 在 上 大 学 期 间 学 会 的 ， 很 直观 。 这 些 规则 不 但 简单 而 且 能 有 效 地 帮 有 我 
区 分 牛奶 是 否 已 经 坏 了 。 这 些 都 是 一 棵 好 的 决策 树 的 特点 。 


| 
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上 面 是 一 棵 简化 的 决策 树 ， 构 造 过 程 非常 灵活 。 为 了 更 详细 地 说 明 决 策 树 ， 我 们 来 看 看 
另外 一 个 例子 。 在 一 个 新 奇 的 宠物 店 ， 一 个 机 器 人 正 忙 于 工作 。 在 完 物 店 开 门 营 业 之 前 ， 
它 要 学 会 什么 动物 适合 成 为 孩子 们 的 宠物 。 在 开始 之 前 ， 店 长 给 出 了 9 种 宠物 ， 其 中 有 
的 适合 做 宠物 ， 有 的 不 适合 。 经 过 一 番 检 查 ， 机 器 人 把 这 些 信 息 编 撰 成 一 张 表 格 ， 如 表 
4-1 所 示 。 


表 4-1: 新 奇 宠物 店 的 “特征 向 量 ” 


名 字 重量 ( 公斤 ) 腿 数 颜 色 适合 做 宠物 吗 
Fido 20.5 4 棕色 是 
Mr. Slither 3.1 0 绿色 否 
Nemo 0.2 0 棕 黄 色 是 
Dumbo 1390.8 4 灰色 否 
Kitty 12.1 4 灰色 是 
Jim 150.9 2 棕 黄色 否 
Millie 0.1 100 棕色 否 
McPigeon 1.0 2 灰色 否 
Spot 10.0 4 棕色 是 


虽然 数据 中 已 经 给 定 了 名 字 ， 但 名 字 并 不 能 作为 一 个 特征 。 我 们 疫 有 道理 认为 名 字 本 身 具 
有 预测 性 : 就 机 器 人 所 知 ，“Felix” 可 能 是 只 猫 的 名 字 ， 也 可 能 是 只 有 毒 的 狼 蛛 。 因 此 ， 
这 里 所 剩 的 特征 有 : 两 个 数值 型 特征 〈 重 量 、 腿 数 ) ， 一 个 类 别 型 特征 (颜色 ) ， 这 三 个 特 
征用 来 预测 一 个 类 别 型 目标 《是否 适合 做 小 孩 的 宠物 ) 。 


机 器 人 可 能 会 用 一 个 简单 的 决策 树 拟 合 训练 数据 集 ， 这 棵 决策 树 只 根据 “重量 ”做 决策 ， 
如 图 4-2 所 示 。 


重量 二 500 公 斤 吗 ? 


图 4-2: 机 器 人 的 第 一 棵 决策 树 


决策 树 逻 辑 很 好 理解 ， 而 且 有 一 定 的 道理 :500 公斤 的 动物 肯定 不 适合 作 宠物 。 这 条 规则 
能 对 9 个 样本 中 的 5 个 作出 正确 预测 。 快 速 看 一 下 训练 数据 ， 我 们 就 能 发 现 把 重量 的 国 值 
降低 为 100 公斤 能 够 改进 决策 规则 。 这 样 我 们 就 能 正确 预测 6 个 样本 。 现 在 重量 大 的 动物 
都 能 预测 正确 了 ， 但 重量 轻 的 动物 只 能 部 分 预测 正确 。 
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因此 ， 为 了 进一步 提高 对 体重 小 于 100 公斤 的 动物 的 预测 准确 度 ， 机 器 人 进行 了 第 二 次 决 
策 。 如 果 能 找到 一 个 特征 ， 通 过 这 个 特征 将 错误 的 “是 ”预测 纠正 为 “ 否 ”预测 ， 那 就 太 
好 了 了。 比如， 训练 集中 有 一 种 小 型 的 绿色 动物 ， 听 起 来 有 点 儿 像 条 蛇 ， 不 适合 做 完 物 ， 机 
器 人 就 可 以 根据 颜色 对 此 作出 正确 判断 ， 如 图 4-3 所 示 。 


量 宇 100 公 斤 吗 ? 


重 


颜色 是 绿色 吗 ? 


图 4-3: 机 器 人 的 第 二 棵 决策 树 


现在 9 个 样本 中 有 7 个 可 以 正确 预测 。 当 然 ， 可 以 一 直 增 加 决策 规则 ， 直 到 对 所 有 9 个 样 
本 都 能 全 部 正确 地 作出 预测 。 但 这 样 得 出 的 决策 树 很 可 能 不 合理 ， 如 果 翻 译 成 常用 语 ， 决 
策 树 可 能 是 :“ 如 果 动 物 的 重量 小 于 100 公斤 ， 并 且 颜 色 是 棕色 而 不 是 绿色 ， 并 且 腿 的 数 
量 少 于 10， 那 么 它 适合 做 宠物 。 虽然 能 完美 拟 合 给 定 样本 ， 但 这 样 的 决策 树 不 能 预测 出 
棕色 有 四 条 腿 的 小 型 豹 能 不 合适 做 宠物 。 看 来 ， 为 避免 这 种 被 称 为 过 度 拟 合 的 现象 ， 还 是 
需要 继续 改进 啊 。 


不 过 到 目前 为 止 ， 对 决策 树 算法 的 介绍 已 经 足够 我 们 在 Spark 中 使 用 决策 树 算法 了 。 本 章 
接 下 来 的 内 容 将 描述 怎样 选择 决策 规则 ， 何 时 停止 决策 过 程 以 及 怎样 通过 创建 决策 森林 来 
提高 准确 度 。 


4.5 ”Covtype 数 据 集 


本 章 用 到 的 数据 集 是 著名 的 Covtype 数据 集 ， 该 数据 集 可 以 在 线 下 载 (http://t.cn/ 
R2wmIsI) ， 包 含 一 个 CSV 格式 的 压缩 数据 文件 covtype.data.gz， 附 带 一 个 描述 数据 文件 的 
信息 文件 covtype.info。 


该 数据 集 记 录 了 美国 科罗拉多 州 不 同 地 块 的 森林 植被 类 型 (也 就 是 现实 中 的 森林 ， 这 仅仅 
是 巧合 ! ) 每 个 样本 包含 了 描述 每 块 土地 的 若干 特征 ， 包 括 海拔 、 坡 度 、 到 水 源 的 距离 、 
遮阳 情况 和 土壤 类 型 ， 并 且 随 同 给 出 了 地 块 的 已 知 森 林 植 被 类 型 。 我 们 需要 总 共 54 个 特 
征 中 的 其 余 各 项 来 预测 森林 植被 类 型 。 
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人 们 已 经 用 该 数据 集 进行 了 研究 ， 其 至 在 Kaggle 大 赛 (https://www.kaggle.com/c/forest- 
cover-type-prediction) 中 也 用 过 它 。 本 章 之 所 以 研究 这 个 数据 集 , 原因 在 于 它 不 但 包含 了 数 
值 型 特征 而 且 包 含 了 类 别 型 特征 。 该 数据 集 有 581 012 个 样本 ,虽然 还 称 不 上 大 数据 ,但 
作为 一 个 范例 来 已 经 足够 大 ， 而 且 也 能 够 反映 出 大 数据 上 的 一 些 问题 。 


4.6 准备 数据 
幸运 的 是 ， 数 据 已 经 是 简单 的 CSV 格式 了 。 在 开始 用 Spark 的 MLlib 之 前 ， 我 们 不 需要 进 


行 大 量 的 清洗 或 其 他 准备 工作 。 后 面 我 们 将 介绍 如 何 对 数据 做 一 些 转换 ， 但 现在 该 数据 集 
可 以 直接 开始 用 。 


解压 covtype.data 文件 并 复制 到 HDFS。 本 章 我 们 假定 文件 放 在 /user/ds/ 目录 下 。 请 启动 
spark-shell, 


Spark MLlib 将 特征 向 量 抽象 为 LabeledPoint， 它 由 一 个 包含 多 个 特征 值 的 Spark MLlib 
Vector 和 一 个 称 为 标号 (label) 的 目标 值 组 成 。 该 目标 为 Double 类 型 ， 而 Vector 本 质 上 
是 对 多 个 Double 类 型 值 的 抽象 。 这 说 明 LabeledPoint 只 适用 于 数值 型 特征 。 但 只 要 经 过 
适当 编码 ，LabeledPoint 也 可 用 于 类 别 型 特征 。 


其 中 一 种 编码 是 one-hot (http://en.wikipedia.org/wiki/One-hot) 或 1-of-n 编码 。 在 这 种 编码 
中 , 一 个 及 个 不 同 取 值 的 类 别 型 特征 可 以 变 成 NN 个 数值 型 特征 ， 变 换 后 的 每 个 数值 型 特 
征 的 取 值 为 0 或 1。 在 这 NN 个 特征 中 ， 有 且 只 有 一 个 取 值 为 1， 其 他 特征 取 值 都 为 0。 比 
如 ， 类 别 型 特征 “天 气 ” 可 能 的 取 值 有 “多 云 "“ 有 十 ”或 “晴朗 ”"。 在 1-of-n 编码 中 ， 它 
就 变 成 了 三 个 数值 型 特征 : 多 去 用 1,0,9 表示 ， 有 十 用 0,1,9 表示 ， 晴 朗 用 0,60,1 表示 。 
可 以 为 这 三 个 数值 型 特征 分 别 取 名 : is_cloudy、is_rainy 和 is_clear。 


另 一 种 可 能 的 编码 方式 是 为 类 别 型 特征 的 每 个 可 能 取 值 分 配 一 个 不 同 数值 ， 比 如 多 云 1.0， 
有 十 2.0 等 。 


在 编码 过 程 中 ， 将 类 别 型 特征 当成 数值 型 特征 时 要 小 心 。 类 别 型 特征 值 原本 
是 没有 大 小 顺序 可 言 的 ， 但 被 编码 为 数值 之 后 ， 它 们 就 “显得 ”有 大 小 顺序 
了 。 被 编码 后 的 特征 若 被 视 为 数值 ， 算 法 在 一 定 程度 上 会 假定 有 雨 比 多 云 
大 ， 而 且 大 两 倍 ， 这 样 就 可 能 导致 不 合理 的 结果 。 当 然 ， 只 要 算法 不 把 数字 
编码 当 作 数 值 来 用 也 没什么 问题 。 


虽然 Covtype 数据 集 所 有 列 都 是 数值 ， 但 从 本 质 上 讲 ， 该 数据 集 并 不 是 完全 由 数值 型 特征 
组 成 。covtype.info 文件 显示 ， 有 4 列 是 由 同一 个 类 别 型 特征 Wilderness_Type 经 过 one-hot 
码 生成 的 ， 它 被 赋予 了 4 个 可 能 的 取 值 。 同 样 ， 还 有 40 列 也 是 同一 个 类 别 型 特征 Soil_ 
Type。 目 标本 身 也 是 类 别 型 值 ， 用 1 到 7 编码 。 其 余 的 才 是 由 不 同 单位 度量 的 数值 型 特征 ， 


Ee 
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于 


比如 米 、 度 或 某 个 定性 的 指标 值 。 


在 Covtype 数据 集中 ， 我 们 看 到 它 同时 使 用 了 前 面 提 到 的 类 别 型 变量 的 两 种 编码 方法 。 如 
果 对 类 别 型 特征 不 用 这 两 种 编码 方式 ， 而 是 直接 使 用 类 似 “Rawah Wilderness Area” 这 样 
的 值 ， 有 可 能 会 更 简单 更 直接 。 这 可 能 是 历史 的 产物 : Covtype 数据 集 在 1998 年 发 布 。 基 
于 性 能 方面 的 考虑 ， 或 者 为 了 满足 当时 处 理工 具 要 求 的 格式 〈 当 时 工具 更 多 是 面向 回归 问 
题 的 ) ， 数 据 集 往往 用 这 样 的 方式 进行 编码 。 


人 
4.7 ”第 一 棵 决策 树 
开始 时 我 们 原样 使 用 数据 。 决 策 树 (DecisionTree) 的 实现 ， 以 及 Spark MLlib 中 其 他 几 个 
实现 ， 都 要 求 输 入 必须 是 LabeledPoiint 对 象 格 式 : 


import org.apache.spark.mllib.linalg._ 
import org.apache.spark.mllib.regression._ 


val rawData = sc.textFile("hdfs:///user/ds/covtype.data") 


val data = rawData.map { line => 
val values = line.split(',').map(_.toDouble) 
val featureVector = Vectors.dense(values.init) © 
val label = values.last - 1 @ 
LabeledPoint(label, featureVector) 


} 


@ init 返回 除 最 后 一 个 值 之 外 的 所 有 值 ， 最 后 一 列 是 目标 。 
@ 决策 树 要 求 label 从 0 开始 ， 所 以 要 减 1。 


第 3 章 从 所 给 数据 中 快速 地 建立 了 一 个 推荐 模型 。 大 家 可 以 借助 一 些 音乐 知识 赁 感觉 就 能 
对 这 个 推荐 引擎 作 一 些 判断 : 只 要 对 比 看 看 用 户 的 收听 习惯 和 引擎 推荐 的 艺术 家 ， 就 能 大 
概 知道 推荐 引擎 给 出 的 推荐 还 不 错 。 但 在 这 里 这 样 做 却 是 不 可 能 的 。 我 们 既 不 知道 怎样 用 
54 个 特征 来 描述 科罗拉多 州 的 一 个 从 未 见 过 的 地 块 ， 也 不 知道 如 何 预测 这 样 地 块 上 的 森林 
植被 类 型 。 


相反 ， 我 们 可 以 直接 从 数据 集中 取出 部 分 数据 ， 用 以 评估 所 得 到 的 模型 。 之 前 ， 为 了 评测 保 
留 的 收听 数据 和 模型 预测 之 间 的 一 致 性 ， 我 们 采用 AUC 指标 。 这 里 我 们 采用 同样 的 原理 ， 
不 过 评价 指标 改 为 精确 度 指标 。 本 章 将 数据 分 成 完整 的 三 部 分 ， 训练 集 、 交 又 检验 集 (CV) 
和 测试 集 。 在 下 面 的 代码 中 你 会 看 到 ， 训 练 集 占 80%， 交 又 检验 集 和 测试 集 各 占 10%: 


val Array(trainData, cvData, testData) = 
data.randomSplit(Array(0.8, 0.1, 0.1)) 

trainData.cache() 

cvData.cache() 

testData.cache() 


58 | 第 4 章 


和 ALS 实现 一 样 ，DecisionTree 实现 也 有 几 个 超 参数 ， 我 们 需要 为 它们 选择 值 。 和 之 前 
一 样 ， 训 练 集 和 CV 集 用 于 给 这 些 超 参数 选择 一 个 合适 值 。 这 里 第 三 个 数据 集 ， 也 就 是 
测试 集 ， 用 于 对 基于 选 定 超 参 数 的 模型 期 望 准确 度 做 无 偏 估 计 。 模 型 在 交叉 检验 集 上 的 
准确 度 往往 有 点 儿 过 于 乐观 ， 不 是 无 偏差 的 。 本 章 我 们 将 更 进一步 ， 以 此 在 测试 集 上 评 
估 最 终 模型 。 


但 是 现在 我 们 还 是 先 来 试 试 在 训练 集 上 构造 一 个 DecisionTreeModel 模型 ， 参 数 采 用 默认 
值 ， 并 用 CV 集 来 计算 结果 模型 的 指标 : 


import org.apache.spark.mllib.evaluation._ 
import org.apache.spark.mllib.tree._ 
import org.apache.spark.mllib.tree.model._ 
import org.apache.spark.rdd._ 


def getMetrics(model: DecisionTreeModel, data: RDD[LabeledPoint]): 
MulticlassMetrics = { 
val predictionsAndLabels = data.map(example => 
(model.predict(example.features), example.label) 


) 


new MulticlassMetrics(predictionsAndLabels) 


} 


val model = DecisionTree.trainClassifier( 
trainData, 7, Map[Int,Int](), "gini", 4, 100) 


val metrics = getMetrics(model, cvData) 


这 里 我 们 用 trainClassifier， 而 不 用 trainRegressor，trainClassifier 指示 每 个 LabeledPoint 
里 的 目标 都 应 该 当 作 不 同 的 类 别 标号 ， 而 不 是 数值 型 特征 值 。( 对 于 回归 问题 trainRegressor 
情况 类 似 ， 本 章 不 再 单独 讨论 。) 


示例 代码 中 ， 我 们 必须 指明 数据 集中 目标 的 取 值 个 数 ， 也 就 是 7。Map 保存 类 别 型 特征 的 
信息 ， 后 面 在 解释 参数 值 gini1、 最 大 深度 4 和 最 大 桶 数 100 的 含义 时 我 们 一 并 讨论 。 


MulticlassMetrics 以 不 同方 式 计算 分 类 器 预测 质量 的 标准 指标 ， 这 里 分 类 器 运行 在 CV 集 
上 。 理 想 情 况 下 ， 分 类 器 对 CV 集中 每 个 样本 的 目标 类 别 应 该 都 能 做 出 正确 预测 。 这 里 的 
指标 以 不 同方 式 度量 这 种 正确 性 。 


和 MulticlassMetrics 一 起 ，Spark 还 提 供 了 BinaryClassificationMetrics。 它 提 
供 类 似 MulticlassMetrics 的 评价 指标 实现 ， 不 过 仅 适 用 常见 的 类 别 型 目标 只 有 两 
个 可 能 取 值 的 情况 。 由 于 这 里 目标 类 别 的 可 能 取 值 有 多 个 ， 所 以 我 们 不 能 直接 使 用 


BinaryClassificationMetrics, 


我 们 有 必要 先 看 看 混淆 矩阵 : 
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metrics.confusionMatrix 


14019.0 6630.0 15.0 0.0 


0.0 1.0 391.0 
5413.0 22399.0 438.0 16.0 0.0 3.0 50.0 
0.0 457.0 2999.0 73.0 0.0 12.0 0.0 
0.0 1:0 163.0 117.0 0.0 0.0 0.0 
0.0 872.0 40.0 0.0 0.0 0.0 0.0 
0.0 500.0 1138.0 36.0 0.0 48.0 0.0 
1091.0 41.0 0.0 0.0 0.0 0.0 891.0 


你 得 到 的 值 可 能 稍 有 不 同 。 构 造 决策 树 过 程 中 的 一 些 随 机 选项 会 导致 分 类 结 
果 稍 有 不 同 。 


因为 目标 类 别 的 取 值 有 7 个， 所 以 混淆 矩阵 是 一 个 7x7 的 矩阵 ， 和 矩阵 每 一 行 对 应 一 个 实 
际 的 正确 类 别 值 ， 和 矩阵 每 一 列 按 序 对 应 预测 值 。 第 i 行 第 j 列 的 元 素 代 表 一 个 正确 类 别 为 i 
的 样本 被 预测 为 类 别 为 j 的 次 数 。 因 此 ， 对 角 线 上 的 元 素 代表 预测 正确 的 次 数 ， 而 其他 元 
素 则 代表 预测 错误 的 次 数 。 对 角 线 上 的 次 数 多 是 好 的 。 但 也 确实 出 现 了 一 些 分 类 错误 的 情 
况 ， 比 如 分 类 器 甚至 没有 将 任何 一 个 样本 类 别 预测 为 5。 


将 准确 度 用 一 个 数字 概括 是 有 帮助 的 。 显 然 ， 我 们 可 以 想到 用 预测 正确 的 样本 数 占 整个 样 
本 数 的 比例 来 计算 准确 度 : 


metrics.precision 


0.7030630195577938 


大 约 70% 样本 的 分 类 是 正确 的 。 这 个 比例 通常 被 称 为 准确 度 (accuracy)， 在 Spark 的 
MulticlassMetrics 指标 中 称 为 精确 度 (precision) ， 意 思 差 不 多 。 


实际 上 精确 度 (precision) 是 二 元 分 类 问题 中 一 个 常用 的 指标 。 二 元 分 类 问题 中 的 目标 类 
别 只 有 两 个 可 能 的 取 值 ， 而 不 是 多 个 取 值 ， 甚 中 一 个 类 代表 正 ， 另 一 类 代表 负 ， 精 确 度 就 
是 被 标记 为 “ 正 ” 而 且 确实 是 “ 正 ” 的 样本 占 所 有 标记 为 “ 正 ” 的 样本 的 比例 。 和 精确 度 
一 起 出 现 的 还 有 另 一 个 指标 召回 率 (recall) 。 召 回 率 是 被 分 类 器 标记 为 “ 正 ” 的 所 有 样本 
与 所 有 本 来 就 是 “ 正 ” 的 样本 的 比率 。 

比如 ， 假 设 数据 集 有 50 个 样本 ， 其 中 20 个 为 正 。 分 类 器 将 50 个 样本 中 的 10 个 标记 为 
正 ”， 在 这 10 个 被 标记 为 “ 正 ” 的 样本 中 ， 只 有 4 个 确实 是 “ 正 ”( 也 就 是 4 个 分 类 正 
确 )， 所 以 这 里 的 精确 度 为 4/10=0.4， 召 回 率 为 4/20=0.2。 


我 们 可 以 把 这 些 概念 应 用 到 多 元 分 类 问题 ， 把 每 个 类 别 单独 视 为 “ 正 ”"， 所 有 其 他 类 型 视 为 
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“ 负 ”。 比 如 ， 要 计算 每 个 类 别 相对 其 他 类 别 的 精确 度 ， 请 看 如 下 代码 : 


(0 until 7) .map( @ 
cat => (metrics.precision(cat), metrics.recall(cat)) 
).foreach(println) 


(0.6805931840866961,0.6809492105763744) 
(0.7297560975609756,0.7892237892589596) 
(0.6376224968044312,0.8473952434881087) 
(0.5384615384615384,0.3917910447761194) 
(0.0,0.0) 
(0.7083333333333334,0.0293778801843318) 
(0.6956168831168831,0.42828585707146427) 


@ DecisionTreeModel 模型 的 类 别 标号 从 0 开始 。 


由 此 可 以 看 到 每 个 类 型 的 准确 度 都 各 不 相同 。 就 本 例 而 言 ， 我 们 没 道理 认为 某 个 类 型 的 准 
确 度 要 比 其 他 类 型 的 准确 度 更 重要 ， 因 此 用 一 个 多 元 分 类 的 总 体 精 确 度 就 可 以 较 好 地 度量 
分 类 准确 度 。 


虽然 70% 的 准确 度 听 起 来 还 不 错 ， 但 我 们 还 不 能 立马 看 出 这 个 准确 度 是 优秀 还 是 糟糕 。 作 
为 基准 ， 一 个 朴素 方法 的 准确 度 是 多 少 呢 ? 即使 是 一 个 坏 了 的 时 钟 ， 每 天 也 会 有 两 次 显示 
的 时 间 是 正确 的 。 类 似 地 ， 为 每 个 样本 随便 猜 一 个 类 别 ， 偶 尔 也 能 得 到 正确 答案 。 


按照 类 别 在 训练 集中 出 现 的 比例 来 预测 类 别 ， 我 们 来 构建 一 个 “分 类 器 ” 。 每 次 分 类 的 正 
确 度 将 和 一 个 类 型 在 CV 集中 出 现 的 次 数 成 正比 。 比 如 ， 一 个 类 别 在 训练 集中 占 20%， 在 
CV 集中 占 10% ， 那 么 该 类 别 将 贡献 10% 的 20%， 即 2% 的 总 体 准 确 度 。 通 过 按 20% 的 时 
候 将 样本 猜测 为 该 类 ，CV 集 样本 中 有 10% 的 样本 会 被 猪 对 。 将 所 有 类 别 在 训练 集 和 CV 
集 出 现 的 概率 相 乘 ， 然 后 把 结果 相 加 ， 我 们 就 得 到 了 一 个 对 准确 度 的 评估 : 


import org.apache.spark.rdd._ 


def classProbabilities(data: RDD[LabeledPoint]): Array[Double] = { 
val countsByCategory = data.map(_.label).countByValue() © 
val counts = countsByCategory.toArray.sortBy(_._1).nap(_..2) @ 
counts.map(_.toDouble / counts.sum) 


} 


val trainpriorprobabilities = classProbabilities(trainData) 

val cvPriorProbabilities = classProbabilities(cvData) 

trainpriorprobabilities.zip(cvPriorProbabilities).nap { © 
case (trainprob, cvProb) => trainprob * cvProb 

}.sum 


0.37737764750734776 


@ 计算 数据 中 每 个 类 别 的 样本 数 ，( 类 别 ， 样 本 数 )。 
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@ 对 类 别 的 样本 数 进行 排序 并 取出 样本 数 。 
@ 把 训练 集 和 CV 集中 的 某 个 类 别 的 概率 结 成 对 ， 相 乘 然 后 相 加 。 


随机 猜测 的 准确 度 为 37%， 所 以 我 们 前 面 得 到 70% 的 准确 度 看 起 来 还 不 错 。 但 是 这 个 
70% 的 准确 度 是 在 DecisionTree.trainClassifier() 中 用 默认 参数 的 条 件 下 取得 的 。 如 果 
在 决策 树 构 建 过 程 中 试 试 超 参 数 的 其 他 值 ， 准 确 度 还 可 以 提高 。 


4.8 决策 树 的 超 参 数 
第 3 章 中 ，ALS 算法 提供 了 几 个 超 参 数 。 我 们 先 构 造 超 参 数 取 不 同 值 时 的 不 同 组 合 的 模 
型 ， 然 后 用 某 个 指标 评估 每 个 组 合 结果 的 质量 ， 通 过 这 种 方式 来 选择 超 参数 值 。 这 里 我 们 
采用 相同 的 过 程 ， 但 指标 由 AUC 改 为 多 元 分 类 准确 度 。 这 里 控制 决策 树 选择 过 程 的 超 参 
数 为 最 大 深度 、 最 大 桶 数 和 不 纯 性 度量 。 


最 大 深度 只 是 对 决策 树 的 层 数 作出 限制 ， 它 是 分 类 器 为 了 对 样本 进行 分 类 所 作 的 一 连 串 判 
断 的 最 大 次 数 。 限 制 判断 次 数 有 利于 避免 对 训练 数据 产生 过 拟 合 ， 这 一 点 我 们 在 前 面 宠物 
店 的 例子 中 已 有 说 明 。 


决策 树 算 法 负责 为 每 层 生 成 可 能 的 决策 规则 ， 比 如 在 宠物 店 示 例 中 ， 这 些 决策 规则 类 似 
“重量 > 100” 或 者 “重量 > 500”。 决 策 总 是 采用 相同 形式 : 对 数值 型 特征 ， 决 策 采用 特征 
二 值 的 形式 ， 对 类 别 型 特征 ， 决 策 采用 特征 在 〈 值 1, 值 2,…) 中 的 形式 。 因 此 ， 要 尝试 的 
决策 规则 集合 实际 上 是 可 以 租 入 决策 规则 中 的 一 系列 值 。Spark MLlib 的 实现 把 决策 规则 集 
合 称 为 “ 桶 ”(bin)。 桶 的 数目 越 多 ， 需 要 的 处 理 时 间 越 多 但 找到 的 决策 规则 可 能 更 优 。 


什么 因素 会 促使 产生 好 的 决策 规则 ?直观 上 讲 ， 好 的 决策 规则 应 该 通过 目标 类 别 值 对 样本 
作出 有 意义 的 划分 。 比 如 ， 如 果 一 个 规则 将 Covtype 数据 集 划 分 为 两 个 子 集 ， 其 中 一 个 子 
集 的 样本 全 部 属于 类 别 1~3， 第 二 个 子 集中 的 样本 则 都 属于 和 类 别 4~7， 那 么 它 就 是 一 个 
好 规则 ， 因 为 这 个 规则 清楚 地 把 一 些 类 别 和 其 他 类 别 分 开 。 如 果 样 本 集 用 一 个 决策 规则 划 
分 ， 划 分 前 后 每 个 集合 各 类 型 的 不 纯 性 程度 没有 改善 ， 那 么 这 个 规则 就 没什么 价值 。 沿 着 
该 决策 规则 的 分 支 走 下 去 ， 每 个 目标 类 别 的 可 能 取 值 的 分 布 仍然 是 一 样 的 ， 因 此 实际 上 它 
在 构造 可 靠 的 分 类 器 方面 没有 任何 进步 。 


换 句 话说 ， 好 规则 把 训练 集 数据 的 目标 值 分 为 相对 是 同类 或 “ 纯 ”(pure) 的 子 集 。 选 择 
最 好 的 规则 也 就 意味 着 最 小 化 规则 对 应 的 两 个 子 集 的 不 纯 性 (impurity)。 不 纯 性 有 两 种 
常用 的 度量 方式 : Gini 不 纯度 (http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_ 
impurity) 或 炉 (http://en.wikipedia.org/wiki/Entropy_(information_theory))。 


Gini 不 纯度 直接 和 随机 猜测 分 类 器 的 准确 度 相关 。 在 每 个 子 集中 ， 它 就 是 对 一 个 随机 挑选 


的 样本 进行 随机 分 类 时 分 类 错误 的 概率 (随机 挑选 样本 和 随机 分 类 时 要 参照 子 数据 集 的 类 
别 分 布 )。 这 就 是 用 1 减 去 每 个 类 别 的 比例 与 自身 的 乘积 之 和 。 假 设 子 数据 包含 N 个 类 别 
的 样本 ，p, 是 类 别 i 的 样本 所 占 比 例 ， 于 是 可 以 得 到 如 下 Gini 不 纯度 公式 : 


N 
1,(p)=1- Dp 
Lal 


如 果子 数据 集中 所 有 样本 都 属于 一 个 类 别 ， 则 Gini 不 纯度 的 值 为 0， 因 为 这 个 子 数据 集 完 
全 是 “ 纯 ” 的 。 当 子 数 据 集中 的 样本 来 自 N 个 不 同 的 类 别 时 ，Gini 不 纯度 的 值 大 于 0， 并 
且 在 每 个 类 别 的 样本 数 都 相同 时 达到 最 大 ， 也 就 是 最 不 纯 的 情况 。 

炉 是 另 一 种 度量 不 纯 性 的 方式 ， 它 来 源 于 信息 论 。 解 释 灼 本 质 更 困难 ， 但 人 代 表 了 子 集 
中 目标 取 值 集合 的 不 确定 程度 。 如 果子 集 只 包含 一 个 类 别 ， 则 是 完全 确定 的 ， 炳 为 0。 人 
可 以 用 以 下 箭 计算 公式 定义 : 


rtp -Spe[ |=- ot) 


有 意思 的 是 ， 不 确定 性 是 有 单位 的 。 由 于 取 自然 对 数 (以 。 为 底 )， 炉 的 单位 是 纳 特 
(nat) 。 相 对 于 以 e 为 底 的 纳 特 ， 我 们 更 熟悉 它 对 应 的 比特 (以 2 为 底 取 对 数 即 可 得 到 )。 
实际 上 度量 的 是 信息 ， 因 此 在 使 用 婷 的 决策 树 中 ， 我 们 也 常 说 决策 规则 的 信息 增 疼 。 


不 同 的 数据 集 上 对 于 挑选 好 的 决策 规则 方面 ， 这 两 个 度量 指标 各 有 千秋 。Spark 的 实现 默 
认 采 用 Gini 不 纯度 。 


有 些 决策 树 实现 会 对 候选 决策 规则 设 定 最 小 信息 增益 ， 或 最 小 不 纯度 降低 。 在 改善 子 集合 
的 不 纯 性 方面 不 达标 的 决策 规则 将 不 被 采用 。 与 通过 减少 最 大 深度 一 样 ， 这 也 有 利于 避免 
过 拟 合 ， 因 为 对 训练 集 疫 有 什么 区 分 度 的 决策 规则 实际 上 对 区 分 将 来 的 数据 也 没什么 帮 
助 。 然 而 ，Spark MLlib 目前 还 设 有 实现 最 小 信息 增益 之 类 的 规则 。 


4.9 决策 树 调 优 
采用 哪个 不 纯 性 度量 所 得 到 的 决策 树 的 准确 度 更 高 ， 或 者 最 大 深度 或 桶 数 取 多 少 合适 ， 从 
数据 上 看 ， 回 答 这 些 问 题 是 困难 的 。 幸 运 的 是 ， 我 们 可 以 让 Spark 来 尝试 这 些 值 的 许多 组 
合并 报告 结果 ， 就 像 第 3 章 所 做 的 那样 ， 


val evaluations = 
for (impurity <- Array("gini", "entropy"); 
depth <- Array(1, 20); 
bins <- Array(10, 300)) @ 
yield { 
val model = DecisionTree.trainClassifier( 
trainData, 7, Map[Int,Int](), impurity, depth, bins) 
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val predictionsAndLabels = cvData.map(example => 
(model.predict(example.features), example.label) 
) 
val accuracy = 
new MulticlassMetrics(predictionsAndLabels).precision 
((impurity, depth, bins), accuracy) 
} 


evaLuations.sortBy(_. 2).reverse.foreach(printLn) @ 


((entropy,20,300),0.9125545571245186) 
((gini,20,300),0.9042533162173727) 
((gini,20,10),0.8854428754813863) 
((entropy,20,10),0.8848951647411211) 
((gini,1,300),0.6358065896448438) 
((gini,1,10),0.6355669661959777) 
((entropy,1,300),0.4861446298673513) 
((entropy,1,10),0.4861446298673513) 


@ 和 第 三 章 一 样 ， 可 以 看 成 是 三 重 for 循环 。 
@ 根据 第 二 个 值 ( 准 确 度 ) 降序 排序 并 打印 。 


很 显然 最 大 深度 为 1 太 小 ， 得 到 的 结果 比较 差 。 桶 数 多 有 点 儿 帮 助 ， 但 帮助 也 不 大 。 在 合 
理 的 最 大 深度 下 ， 两 个 不 纯 性 度量 的 结果 也 差不多 。 我 们 可 以 继续 这 个 过 程 来 探寻 更 好 的 
超 参 数 。 桶 数 应 该 越 多 越 好 ， 但 会 减 慢 模型 构造 过 程 且 增 加 内 存 的 使 用 量 。 在 所 有 情况 下 
我 们 都 应 该 试 试 两 种 不 纯 性 度量 。 增 加 最 大 深度 能 提高 准确 度 ， 但 这 里 有 个 抛 点 ， 超 过 它 
之 后 增加 深度 也 没有 用 了 。 


到 目前 为 止 ， 本章 示 例 代码 一 直 都 没 用 到 占 数 据 集 10% 的 保留 测试 集 。 如 果 说 CV 集 的 目 
的 是 评估 适合 训练 集 的 和 参数， 那么 测试 集 的 目的 是 评估 适合 CV 集 的 超 参 数 。 也 就 是 说 ， 
测试 集 保 证 了 对 最 终 选 定 的 超 参 数 及 模型 准确 度 的 无 偏 估计 。 


前 面 的 测试 表明 ， 目 前 为 止 超 参 数 的 最 佳 选择 是 : 不 纯 性 度量 采用 焙 ， 最 大 深度 为 20， 桶 
数 为 300， 这 时 得 到 的 准确 度 为 91.2%。 但 是 ， 模 型 在 构建 过 程 中 还 有 一 个 随机 元 素 。 最 
好 的 模型 和 评估 结果 可 能 还 需要 一 点 儿 运 气 的 成 分 ， 因 此 准确 度 评估 可 能 有 一 些 乐观 。 换 
句 话 说 ， 超 参数 也 可 能 有 过 拟 合 现象 。 


要 想 真 正 评估 这 个 最 佳 模型 在 将 来 的 样本 上 的 表现 ， 当 然 需 要 在 没有 用 于 训练 的 样本 上 进 
行 评估 。 但 是 ， 我 们 也 需要 避免 使 用 在 评估 环 市 中 用 过 的 CV 集 样本 。 这 也 就 是 需要 把 第 

三 个 子 集 即 测试 集 保留 在 一 边 的 原因 。 最 后 一 步 ， 用 得 到 的 超 参数 同时 在 训练 集 和 CV 集 
上 构造 模型 并 且 像 前 面 那样 进行 评估 : 


val model = DecisionTree.trainClassifier( 
trainData.union(cvData), 7, Map[Int,Int](), "entropy", 20, 300) 


结果 准确 度 为 91.6%， 基 本 上 没 变 。 因 此 ， 开 始 的 估计 看 来 是 可 靠 的 。 


现在 该 重新 回顾 一 下 过 拟 合 的 问题 了 。 如 前 所 述 ， 我 们 可 能 构造 这 样 一 棵 决策 树 : 它 的 深 
度 非 常 深 ， 非 常 复杂 ， 它 能 很 好 地 甚至 是 完美 拟 合 给 定 的 训练 样本 ， 但 却 不 能 把 这 种 准确 
度 推广 到 其 他 样本 上 ， 因 为 它 过 于 紧密 地 拟 合 了 训练 样本 中 的 细微 特质 和 噪声 。 过 拟 合 问 
题 不 只 是 在 决策 树 算法 中 存在 ， 而 是 大 多 数 机 器 学 习 算法 普遍 存在 的 问题 。 


当 决 策 树 有 过 拟 合 问题 时 ， 在 与 模型 拟 合 相同 的 训练 数据 上 它 的 准确 度 很 高 ， 但 在 其 他 样 
本 上 准确 度 很 低 。 在 本 章 示 例 中 ， 最 终 模型 在 其 他 新 样本 上 的 准确 度 大 约 为 91.6%。 当 然 ， 
通过 trainData.union(cvData)， 我 们 就 能 轻易 在 训练 数据 上 评估 准确 度 。 这 时 的 准确 度 大 
约 为 95.3%。 


差别 不 是 很 大 ,但 也 显示 决策 树 在 一 定 程度 上 存在 对 训练 数据 的 过 拟 合 。 减 小 最 大 深度 可 
能 会 使 过 拟 合 问题 有 所 改善 。 


4.10 重 谈 类 别 型 特征 

到 目前 为 止 我 们 还 没有 对 示例 代码 中 的 参数 Map[Int,Int]() 作出 解释 。 这 个 参数 值 ， 比 如 
7， 指 明了 输入 数据 中 每 个 类 别 型 特征 预期 的 不 同 取 值 的 个 数 。 这 个 Map 中 元 素 的 键 是 特征 
在 输入 向 量 Vector 中 的 下 标 ，Map 中 元 素 的 值 是 类 别 型 特征 的 不 同 取 值 个 数 。 目 前 Spark 
MLlib 实现 中 要 求 事先 给 定 这 些 信息 。 


参数 取 为 空 Map()， 则 表示 算法 不 需要 把 任何 特征 作为 类 别 型， 也 就 是 说 所 有 特征 都 是 数 
值 型 的 。 实 际 上 ，Spark MLlib 实现 中 所 有 特征 都 是 数值 ， 但 概念 上 其 中 某 些 是 类 别 型 特 
征 。 如 前 所 述 ， 如 果 简 单 地 把 类 别 型 变量 当 作 数 值 型 对 待 ， 将 其 映射 到 不 同 的 数字 ， 这 种 
做 法 是 错误 的 ， 原 因 在 于 算法 会 试图 从 一 个 没有 意义 的 大 小 顺序 中 学 习 。 


好 在 ， 这 里 的 类 别 型 特征 已 经 用 one-hot 方式 编码 成 了 多 个 二 元 的 0/1 值 。 把 这 些 单个 的 特 
征 当 作 数 值 型 来 处 理 并 没有 什么 问题 ， 因 为 任何 基于 数值 型 特征 的 决策 规则 都 需要 选择 0 
或 1 作 为 其 国 值 ， 由 于 所 有 的 国 值 都 是 0 或 1， 所 以 都 是 等 价 的 。 


当然 ， 这 种 编码 迫使 决策 树 算法 在 底层 要 单独 考虑 类 别 型 特征 的 每 一 个 值 。 如 果 用 一 个 类 
别 型 变量 就 不 会 有 这 个 方面 的 限制 。 如 果 某 个 类 别 型 特征 有 40 个 取 值 ， 决 策 树 可 以 在 一 
次 决策 中 对 多 个 类 别 组 进行 判断 。 这 样 的 方式 更 直接 更 优 。 男 一 方面 ， 用 40 个 数值 型 特 
征 表示 一 个 有 40 个 取 值 的 类 别 型 特征 会 增加 内 存 使 用 量 并 且 减 慢 决策 速度 。 


如 果 取 消 数据 集 已 经 完成 的 one-hot 编码 ， 情 况 会 怎样 ? 下 面 我 们 试 试 解析 输入 ， 将 one- 
hot 编码 所 得 到 的 两 个 类 别 型 特征 转换 回 一 系列 不 同 的 数值 型 值 ; 


val data = rawData.map { Line => 
val values = line.split(',').map(_.toDouble) 
val wilderness = vaLues.sLice(10，14) .indexof(1.0) .toDoubtLe © 
val soil = values.slice(14, 54).indexOf(1.0).toDouble @ 
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val featureVector = 

Vectors.dense(values.slice(0, 10) :+ wilderness :+ soil) © 
val label = values.last - 1 
LabeledPoint(label, featureVector) 


} 
@ “wilderness” 对 应 的 4 个 二 元 特征 中 哪 一 个 取 值 为 1。 
@ 类 似 地 ,， “soil” 对 应 40 个 二 元 特征 。 
@ 将 推导 出 的 特征 加 回 到 前 10 个 特征 中 。 
我 们 可 以 重复 将 数据 集 拆 分 成 训练 集 /CV 集 / 测试 集 和 模型 评估 的 过 程 。 这 里 ， 我 们 指定 
两 个 新 的 类 别 型 特征 的 不 同 取 值 个 数 ， 这 样 这 两 个 特征 就 会 被 当 作 类 别 型 而 不 是 数值 型 特 
征 处 理 。 由 于 地 块 (soil) 特征 有 40 个 不 同 的 取 值 ，DecisionTree 需要 桶 数目 最 少 增 加 到 
40。 考 虑 前 面 的 结果 ， 增 加 决策 树 的 深度 直至 30，30 是 当前 DecisionTree 能 支持 的 最 大 
深度 。 最 后 ， 在 训练 集 和 CV 集 上 的 准确 度 报告 如 下 : 


T 


一 


val evaluations = 
for (impurity <- Array("gini", "entropy"); 
depth <- Array(10, 20, 30); 
bins <- Array(40, 300)) 
yield { 
val model = DecisionTree.trainClassifier( 
trainData, 7, Map(10 -> 4, 11 -> 40)， 
impurity, depth, bins) © 
val trainAccuracy = getMetrics(model, trainData).precision 
val cvAccuracy = getMetrics(model, cvData).precision 
((impurity, depth, bins), (trainAccuracy, cvAccuracy)) @ 


} 


((entropy,30,300),(0.9996922984231909,0.9438383977425239)) 
((entropy,30,40),(0.9994469978654548,0.938934581368939)) 
((gini,30,300),(0.9998622874061833,0.937127912178671)) 
((gini,30,40),(0.9995180059216415,0.9329467634811934)) 
((entropy,20,40),(0.9725865867933623,0.9280773598540899)) 
((gini,20,300),(0.9702347139020864,0.9249630062975326)) 
((entropy,20,300),(0.9643948392205467,0.9231391307340239)) 
((gini,20,40),(0.9679344832334917,0.9223820503114354)) 
((gini,10,300),(0.7953203539213661,0.7946763481193434)) 
((gini,10,40),(0.7880624698753701,0.7860215423792973)) 
((entropy,10,40),(0.78206336500723,0.7814790598437661)) 
((entropy,10,300),(0.7821903188046547,0.7802746137169208)) 


@ 指定 类 别 型 特征 10 和 11 的 取 值 个 数 。 
@ 返回 在 训练 集 和 CV 集 上 的 准确 度 。 


如 果 在 集群 上 运行 以 上 代码 ， 会 发 现 决策 树 构建 过 程 比 之 前 快 了 好 几 倍 。 
在 深度 为 30 的 时 候 ， 训 练 集 几乎 完美 拟 合 。 这 时 虽然 存在 一 定 程度 的 过 拟 合 ， 但 是 在 交 


大 所 
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又 检验 集 上 的 准确 度 是 最 高 的 。 选 择 箭 作为 不 纯 性 度量 和 更 多 的 桶 数目 ， 再 一 次 看 起 来 有 
助 于 提高 准确 度 。 在 本 次 测试 集 上 ， 准 确 度 为 94.5%。 通 过 把 类 别 型 特征 真正 作为 类 别 型 ， 
分 类 器 的 准确 度 提高 了 将 近 3%。 


4.11 随机 决策 森林 


如 果 你 一 步 一 步 运 行 本 章 示 例 代 码 ， 可 能 已 经 注意 到 运行 结果 和 本 书 代码 中 给 出 的 结果 稍 
有 不 同 。 这 是 在 决策 树 构建 过 程 中 由 随机 因素 造成 的 ， 在 决定 采用 什么 数据 和 尝试 哪些 决 
策 规则 时 都 有 这 些 随机 因素 的 影响 。 


在 决策 树 的 每 层 ， 算 法 并 不 会 考虑 所 有 可 能 的 决策 规则 。 如 采 在 每 层 上 都 要 考虑 所 有 可 能 
的 决策 规则 ， 算 法 的 运行 时 间 将 无 法 想象 。 对 一 个 有 NN 个 取 值 的 类 别 型 特征 ， 总 共有 2”- 
2 个 可 能 的 决策 规则 ( 除 空 集 和 全 集 以 外 的 所 有 子 集 )。 即 使 对 于 一 个 一 般 大 的 N， 这 也 将 
创建 数 十 亿 候 选 决策 规则 。 

相反 ， 决 策 树 使 用 一 些 启 发 式 策略 ， 能 够 聪明 地 找到 需要 实际 考虑 的 少数 规则 。 在 选择 规 
则 的 过 程 中 也 涉及 一 些 随机 性 ， 每 次 只 考虑 随机 选择 少数 特征 ， 而 且 只 考虑 训练 数据 中 一 
个 随机 子 集 。 在 牺牲 一 些 准 确 度 的 同时 换 回 了 速度 的 大 幅 提 升 ， 但 也 意味 着 每 次 决策 树 算 
法 构造 的 树 都 不 相同 。 这 是 件 好 事 。 


因为 集体 的 智慧 常常 比 个 体 预 测 要 更 准确 。 


为 了 说 明 问题 ， 我 们 来 做 个 快速 测验 : 伦敦 运营 的 黑色 的 士 数量 有 多 少 ? 
请 猜 一 下 ， 先 不 要 偷 看 答案 。 


正确 答案 是 约 19 000， 我 猜 10 000， 这 离 正确 答案 差 了 很 多 。 因 为 我 猜 的 数 比 较 小 ， 所 以 
你 有 可 能 猜 的 比 我 大 ， 这 样 我 们 平均 一 下 就 可 能 更 准确 了 。 这 里 貌似 又 有 点 儿 “ 趋 均值 回 
”的 味道 了 。 我 随便 问 了 办 公 室 里 的 13 个 人 ， 大 家 的 平均 值 是 11 170， 这 个 答案 确实 
要 更 接近 正确 答案 。 


要 取得 这 种 效应 ， 关 键 是 每 个 人 猜 的 时 候 要 独立 ， 互 不 影响 。( 你 没 偷 看 答案 ， 是 吧 ? ) 
如 有 果 大 家 事先 都 已 经 统一 过 意见 并 用 同一 个 方法 猜 ， 这 个 练习 就 没有 意义 了 ， 因 为 大 家 猜 
的 答案 都 一 样 ， 而 且 这 个 相同 的 答案 可 能 错 得 离谱 。 如 果 在 你 猜 之 前 ， 我 把 我 的 情况 告诉 
你 ， 这 会 影响 你 的 猜测 ， 那 么 咱 俩 的 平均 数 可 能 并 不 会 更 准确 ， 甚 至 会 更 精 。 


We 
| 


基于 上 述 考 虑 ， 最 好 树 不 只 有 一 棵 ， 而 是 应 该 有 很 多 棵 ， 每 一 棵 都 能 对 正确 目标 值 给 出 合 
理 、 独 立 且 互 不 相同 的 估计 。 这 些 树 的 集体 平均 预测 应 该 比 任 一 个 体 预 测 更 接近 正确 答 
案 。 正 是 由 于 决策 树 构建 过 程 中 的 随机 性 ， 才 有 了 这 种 独立 性 ， 这 就 是 随机 决策 森林 的 关 
键 所 在 。 


用 决策 树 算法 预测 森林 植被 | 67 


通过 RandomForest，Spark MLlib 可 以 构建 随机 决策 木林。 顾名思义 ， 随 机 决策 森林 是 由 多 
个 决策 树 独立 构造 而 成 。 

val forest = RandomForest.trainClassifier( 

trainData, 7, Map(10 -> 4, 11 -> 40)，20， 

"auto", "entropy", 30, 300) 
与 DecisionTree.trainClassifier() 相 比 ， 这 里 出 现 了 两 个 新 参数 。 第 一 个 代表 要 构建 多 
少 棵 树 ， 这 里 是 20。 由 于 要 构造 20 棵 决策 树 ， 而 之 前 我 们 只 构造 了 一 棵 决策 树 ， 因 此 这 
里 模型 构建 过 程 耗 时 可 能 比 之 前 长 得 多 。 


第 二 个 新 参数 是 特征 决策 树 每 层 的 评估 特征 选择 策略 ， 这 里 设 为 "auto”( 自 动 )。 随 机 决 
策 森 林 在 实现 过 程 中 决策 规则 不 会 考虑 全 部 特征 ， 而 只 考虑 全 部 特征 的 一 个 子 集 。 特 征 选 
择 策略 参数 控制 算法 如 何 选 择 该 特征 子 集 。 只 检查 少数 特征 速度 明显 要 快 ， 并且 由 于 速度 
快 ， 随 机 决策 森林 才 得 以 构造 多 棵 决策 树 。 


但 是 ， 只 考虑 全 部 特征 的 一 个 子 集 ， 这 种 做 法 也 使 个 体 决策 树 的 决策 更 加 独立 ， 因 此 决策 
森林 作为 整体 往往 更 不 会 产生 过 拟 合 问题 。 如 果 某 个 特征 包含 噪声 数据 ， 或 只 针对 训练 集 
有 预测 性 ， 则 这 种 预测 性 是 有 误导 性 质 的 。 采 用 随机 森林 后 大 多 数 树 在 大 多 数 时 候 将 因此 
不 会 考虑 这 个 问题 特征 。 大 多 数 的 树 将 不 会 拟 合 噪声 ， 因 此 它们 的 “票数 ”将 超过 那些 拟 
合 噪声 的 树 。 


实际 上 在 构造 决策 森林 的 时 候 ， 每 棵 树 甚 至 都 没 必要 用 到 全 部 训练 数据 。 同 理 ， 每 棵 树 的 
输入 数据 可 以 随机 选择 。 


随机 决策 森林 的 预测 只 是 所 有 决策 树 预测 的 加 权 平 均 。 对 于 类 别 型 目标 ， 这 就 是 得 票 最 多 
的 类 别 ， 或 有 决策 树 概率 平均 后 的 最 大 可 能 值 。 随 机 决策 森林 和 决策 树 一 样 也 支持 回归 问 
题 ， 这 时 森林 作出 的 预测 就 是 每 棵 树 预测 值 的 平均 。 


RandomForestModel 模型 的 准确 度 立 刻 变 为 96.3% 一 一 提高 了 约 2%。 换 个 角度 看 ， 比 之 前 
我 们 得 到 的 最 好 决策 树 的 错误 率 降低 了 33%， 错 误 率 由 5.5% 降 到 了 3.7%。 


在 大 数据 的 背景 下 ， 随 机 决策 森林 非常 有 吸引 力 ， 因 为 决策 树 往往 是 独立 构造 的 ， 诸 如 
Spark 和 MapReduce 这 样 的 大 数据 技术 本 质 上 适合 数据 并 行 问题 。 也 就 是 说 ， 总 体 答案 
的 每 个 部 分 可 以 通过 在 部 分 数据 上 独立 计算 来 完成 。 随 机 决策 森林 中 决策 树 可 以 并 且 应 
该 只 在 特征 子 集 或 输入 数据 子 集 上 进行 训练 ， 基 于 这 个 事实 ， 决 策 树 构 造 的 并 行 化 就 很 
简单 了 。 

由 于 决策 树 通常 在 全 体 训练 数据 的 一 个 子 集 上 构造 ， 可 以 用 剩余 数据 对 其 进行 内 部 交叉 验 
证 ， 因 此 随机 决策 森林 也 可 以 顺便 评估 其 准确 度 ， 尽 管 Spark MLlib 还 没有 对 该 功能 提供 
直接 支持 。 这 意味 着 随机 决策 森林 甚至 能 知道 其 内 部 哪 棵 决策 树 是 最 准确 的 ， 因 而 可 以 增 
加 其 权重 。 
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这 个 特点 也 用 于 评估 哪些 输入 特征 对 预测 目标 最 有 帮助 ， 因 此 它 有 助 于 解决 特征 选择 问 
题 。 但 是 ， 这 个 话题 超出 了 本 章 的 范围 ， 并 且 MLlib 目前 也 没有 提供 支持 。 


4.12 ”进行 预测 


构建 分 类 器 虽然 有 趣 且 简单 ， 但 它 不 是 最 终 目的 。 我 们 的 目的 是 利用 它 进行 预测 。 我 们 之 
前 的 辛苦 努力 在 这 里 将 得 到 回报 ， 而 且 做 起 来 相对 非常 容易 。 训 练 集 由 LabeledPoint 类 型 
实例 组 成 ， 每 个 实例 包含 一 个 Vector 和 目标 值 ， 它 们 分 别 是 输入 和 已 知 的 输出 。 波 尔 先 生 
说 ， 当 进行 预测 时 ， 特 别 是 预测 未 来 时 ， 输 出 当然 是 未 知 的 。 


现在 我 们 已 经 展现 了 DecisionTree 和 RandomForest 训练 的 结果 ， 它 们 分 别 是 DecisionTreeModel 
和 RandomForestModel 对 象 。 这 两 个 模型 对 象 本 质 上 都 只 有 一 个 方法 predict()。 和 
LabeledPoint 的 特征 向 量 部 分 一 样 ，predict() 方法 接受 一 个 Vector。 因 此 通过 把 每 个 
新 样本 转换 成 一 个 特征 向 量 ， 我 们 同样 可 以 对 它 进行 分 类 并 预测 它 的 目标 类 别 : 


val input = "2709,125,28,67,23,3224,253,207,61,6094,0,29" 
val vector = Vectors.dense(input.split(',').map(_.toDouble)) 
forest.predict(vector) © 


@ 同样 我 们 可 以 一 次 性 对 整个 RDD 做 预测 。 


结果 应 该 为 40， 对 应 原始 Covtype 数据 集中 的 类 别 5 (原始 特征 从 1 开始 )。 显 然 ， 算 法 
预测 示例 中 讨论 的 地 块 植被 类 型 为 “ 山 杨 ”(Aspen)。 


4.13 小结 


本 章 介绍 了 相互 关联 的 两 类 重要 的 机 器 学 习 算法 : 分 类 和 回归 。 我 们 还 一 同 介绍 了 模型 构 
造 和 调 优 的 一 些 基本 概念 : 特征 、 向 量 、 训 练 和 交叉 检验 。 使 用 Covtype 数据 集 和 Spark 
MLlib 中 实现 的 决策 树 和 决策 森林 算法 ， 本 章 演示 了 如 何 根据 位 置 和 土壤 类 型 等 信息 预测 
森林 植被 的 类 型 。 


和 第 3 章 一 样 ， 我 们 还 可 以 进一步 研究 超 参 数 对 模型 准确 度 的 影响 。 在 选择 决策 树 超 参 数 
时 ， 我 们 往往 会 为 了 更 高 的 准确 度 而 宁愿 花费 更 长 时 间 : 增加 桶 和 树 的 数目 通常 能 得 到 更 
高 的 精度 ， 但 精度 的 提高 在 到 达 一 定 程 度 之 后 提高 的 幅度 会 越 来 越 小 。 


本 章 构建 的 分 类 器 结果 非常 准确 。 一 般 情 况 下 ， 准 确 度 超过 95% 是 很 难 达 到 的 。 通 常 ， 通 
过 包括 更 多 特征 ， 或 将 已 有 特征 转换 成 预测 性 更 好 的 形式 ， 我 们 可 以 进一步 提高 准确 度 。 
在 分 类 器 模型 的 迭代 式 改 进 过 程 中 ， 我 们 常常 这 样 反 复 尝试 。 比 如 ， 对 本 章 的 数据 集 ， 距 
离 地 表 水 的 水 平和 垂直 距离 这 两 个 特征 可 以 生成 第 三 个 特征 : 离 地 表 水 的 直线 距离 。 或 
者 ， 如 果 能 收集 到 更 多 数据 ， 为 了 提高 准确 度 ， 我 们 可 能 会 尝试 增加 更 多 特征 ， 比 如 土壤 
温度 。 
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当然 ， 用 Covtype 数据 集 预 测 森 林 植 被 类 型 只 是 预测 问题 的 一 种 类 型 ， 现 实 中 我 们 还 有 其 
他 的 预测 问题 。 比 如 ， 有 些 问 题 要 求 预测 连续 型 的 数值 ， 而 不 是 类 别 型 值 。 对 于 这 类 回归 
问题 ， 本 章 介 绍 的 许多 分 析 方 法 和 代码 照样 适用 ， 不 过 我 们 要 使 用 tratnRegressor() 方法 
而 不 是 本 章 中 介绍 的 trainClassifier()。 


再 者 , 分 类 和 回归 算法 不 只 包括 决策 树 和 决策 森林 ，Spark MLlib 实现 的 算法 也 不 限于 决策 
树 和 决策 森林 。 对 分 类 问题 ，Spark MLlib 提供 的 实现 包括 : 


。 朴素 贝 叶 斯 (http:Wen.wikipedia.org/wiki/Naive_Bayes_classifier) 
。 支持 向 量 机 (http://en.wikipedia.org/wiki/Support_vector_machine) 


。 逻辑 回归 (http://en.wikipedia.org/wiki/Logistic_regression) 


是 的 ， 你 没 看 错 ， 逻 辑 回归 是 一 种 分 类 技术 。 逻 辑 回归 底层 通过 预测 类 别 的 连续 型 概率 国 
数 来 进行 分 类 。 细 市 内 容 我 们 不 必 理 解 。 


[es 


这 些 算法 与 决策 树 和 决策 森林 很 不 相同 。 但 是 ， 其 中 许多 元 素 还 是 一 样 的 ,它们 接受 一 
个 LabeledPoint 类 型 的 RDD 作为 输入 ， 需 要 通过 将 输入 数据 划分 为 训练 集 、 交 又 检验 
集 和 测试 集 来 选择 超 参 数 。 对 这 些 其 他 算法 ,我们 可 以 用 相同 的 通用 原理 为 分 类 和 决策 
问题 建 模 。 


这 些 都 是 监督 学 习 的 例子 。 如 果 某 些 目标 值 或 全 部 目标 值 都 是 未 知 的 ， 情 况 又 会 怎样 ? 下 
一 章 我 们 将 对 此 探寻 解决 之 道 。 


第 5 章 
基于 K 均 值 察 类 的 网 络 流量 异常 检测 


作者 : Sean Owen 


据 我 们 所 知 ， 有 “已 知 的 已 知 " ; 有 些 事 ， 我们 知道 我 们 知道 。 我 们 也 知道 ， 有 “已 知 的 
未 知 " ， 也 就 是 说 ， 有 些 事 ， 我 们 现在 知道 我 们 不 知道 。 但 是 ， 同 样 存在 “不 知 的 不 知 ”; 
有 些 事 ， 我 们 不 知道 我 们 不 知道 。 


Donald Rumsfeld 


分 类 和 回归 技术 很 强大 ， 在 机 器 学 习 领 域 被 广泛 研究 。 第 4 章 我 们 讲述 了 如 何 用 分 类 器 
预测 未 知 值 。 这 里 有 一 点 很 关键 : 为 了 预测 新 数据 的 未 知 值 ， 必 须 事先 给 定 许多 样本 并 
且 样本 的 目标 值 是 已 知 的 。 分 类 器 仅 在 数据 科学 家 知道 他 们 要 寻找 什么 ， 并 且 可 以 提供 
大 量 包 含 输入 及 正确 输出 的 样本 数据 的 情况 下 才能 发 挥 作用 。 由 于 在 学 习 过 程 中 ， 对 每 
个 输入 样本 都 给 出 正确 的 输出 值 作为 指导 ， 所 以 分 类 和 回归 都 属于 监督 学 习 技术 (http:// 


en.wikipedia.org/wiki/Supervised_learning) 。 


然而 ， 在 样本 仅 能 给 出 部 分 正确 输出 甚至 无 法 给 出 输出 的 情况 下 ， 分 类 和 回归 技术 将 无 法 
使 用 。 考 虑 到 电子 商务 网 站 的 情况 ， 我 们 要 按照 购物 习惯 和 偏好 将 顾客 分 组 。 这 里 输入 特 
征 是 顾客 的 购买 记录 、 点 击 记录 和 个 人 信息 等 ， 输 出 则 是 顾客 所 属 的 群体 ， 其 中 可 能 有 一 
群 顾客 时 尚 意识 较 强 ， 还 可 能 有 一 群 更 追求 性 价 比 。 


现在 要 求 你 确定 每 个 新 顾客 所 属 的 目标 群体 。 如 果 采 用 分 类 等 监督 学 习 技术 ， 你 可 能 很 快 
就 会 发 现 缺 乏 先 验 知识 的 问题 “哪些 顾客 属于 时 尚 意识 较 强 ”这 个 信息 是 没有 的 。“ 时 尚 
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意识 较 强 ”这 个 顾客 群 组 对 电子 商务 网 站 是 否 有 意义 ， 你 甚至 都 不 确定 。 


这 时 我 们 就 要 用 到 非 监 督学 习 技 术 了 ! 因为 目标 值 是 未 知 的 ， 所 以 非 监督 学 习 技 术 不 会 学 
习 如 何 预测 目标 值 。 但 是 ， 它 可 以 学 习 数 据 的 结构 并 找 出 相似 输入 的 群 组 ， 或 者 学 习 哪 些 
输入 类 型 可 能 出 现 ， 哪 些 类 型 不 可 能 出 现 。 本 章 将 通过 MLlib 实现 的 聚 类 算法 来 介绍 非 监 
督学 习 技 术 。 


5.1 异常 检测 


顾名思义 ， 异 常 检测 就 是 要 找 出 不 寻常 的 情况 。 如 果 已 经 知道 “异常 ”代表 什么 涵义 ,我 
们 就 能 通过 监督 学 习 轻 松 地 检测 出 数据 集中 的 异常 。 在 样本 的 输入 被 标记 为 “正常 ”和 
“异常 ”后 ， 算 法 就 能 通过 学 习 样 本 来 区 分 “正常 ”和 “异常 ”了 。 然 而 本 质 上 异常 属于 
“未 知 的 未 知 ”"， 也 就 是 说 ， 在 我 们 观察 并 理解 了 异常 以 后 ， 它 就 不 再 是 异常 了 。 

异常 检测 常用 于 检测 欺诈、 网 络 攻 击 、 服 务 器 及 传 感 设备 故障 。 在 这 些 应 用 中 ， 我 们 要 能 
够 找 出 以 前 从 未 见 过 的 新 型 异常 ， 如 新 欺诈 方式 、 新 入 侵 方 法 或 新 服务 器 故障 模式 .。 

这 些 应 用 要 用 到 非 监督 学 习 技 术 ， 通 过 学 习 ， 它 们 知道 什么 是 正常 输入 ， 因 此 能 

历史 数据 有 差异 的 新 数据 。 这 些 新 数据 不 一 定 是 攻击 或 欺诈 ， 它 们 只 是 不 同 寻常 ， 因 此 值 
得 我 们 做 进一步 的 调查 。 


5.2 /均值 聚 类 


聚 类 是 最 有 名 的 非 监 督学 习 算法 ， 它 试图 找到 数据 中 的 自然 群 组 。 一 群 互 相 相 似 而 与 其 他 
点 不 同 的 数据 点 往往 属于 代表 某 种 意义 的 一 个 徐 群 ， 聚 类 算法 就 是 要 把 这 些 相 似 的 数据 划 
分 到 同一 禾 群 中 。 


玉 均 值 聚 类 (http://en.wikipedia.org/wiki/K-means_clustering) 是 应 用 最 广泛 的 聚 类 算法 。 它 
试图 在 数据 集中 找 出 上 个 徐 群 ， 这 里 大 值 由 数据 科学 家 指定 。i 是 模型 的 超 参数 ， 其 最 优 
值 与 数据 集 本 身 有 关 。 事 实 上 ， 本 章 的 一 个 关键 点 就 是 如 何 选择 合适 的 大 值 。 


对 客户 活动 或 交易 数据 集 来 说 ,“ 相 似 ” 到 底 代表 什么 ? 天 均值 算法 有 个 数据 点 相距 多 远 
的 概念 。 在 天 均值 算法 中 数据 点 相互 距离 一 般 采 用 欧 氏 距离 。 截 至 本 书 撰写 时 ， 欧 氏 距 
离 是 Spark MLlib 中 支持 的 唯一 距离 度量 。 计 算 欧 氏 距离 时 要 求 数据 点 的 特征 都 是 数值 型 。 
数据 点 “相似 ”就 是 指 它们 相互 间 的 距离 小 。 


在 天 均值 算法 中 徐 群 其 实 就 是 一 个 点 ， 即 组 成 该 徐 的 所 有 点 的 中 心 。 数 据点 其 实 就 是 由 所 


有 数值 型 特征 组 成 的 特征 向 量 ， 简 称 向 量 。 因 为 在 欧 氏 空间 中 向 量 被 当成 了 点 ， 所 以 直接 
把 数据 点 看 成 点 会 更 加 直观 。 


禾 群 的 中 心 称 为 质心 (centroid) ， 它 是 复 群 中 所 有 点 的 算术 平均 值 ， 因 此 算法 取 名 天 均 
值 。 算 法 开始 时 选择 一 些 数据 点 作为 复 群 的 质心 。 然 后 把 每 个 数据 点 分 配给 最 近 的 质心 。 
接着 对 每 个 禾 计 算 该 和 化 所 有 数据 点 的 平均 值 ， 并 将 其 作为 该 禾 的 新 质心 。 然 后 不 断 重复 这 
个 过 程 。 


对 天 均值 算法 的 介绍 到 此 为 止 ， 还 有 值得 注意 的 一 些 细节 内 容 ， 我 们 将 在 接 下 来 的 案例 部 
分 再 做 论述 。 


5.3 网 络 入 侵 


现在 ， 网 络 攻击 越 来 越 多 地 见 诸 报端 。 有 些 攻击 试图 通过 产生 大 量 网 络 流 量 来 阻塞 计算 
机 上 的 合法 流量 。 其 他 一 些 攻击 则 试图 利用 网 络 软件 的 缺陷 以 实现 对 该 计算 机 的 非法 访 
问 。 虽 然 识 别 流量 “ 比 炸 ” 式 入侵 方 式 十 分 简单 ， 但 要 识别 第 二 种 入 侵 方 式 则 无 异 于 大 
海 捞 针 。 

有 些 入 侵 方 式 的 模式 是 已 知 的 。 比 如 ， 连 续 不 断 地 访问 某 个 机 器 的 所 有 端口 ， 而 正常 的 软 
件 程 序 是 不 会 这 么 做 的 。 这 往往 是 攻击 的 第 一 步 ， 其 目的 是 要 找到 计算 机 上 有 哪些 可 能 被 
攻破 的 服务 。 


统计 对 各 个 端口 在 短 时 间 内 被 远程 访问 的 次 数 ， 就 可 以 得 到 一 个 特征 ， 该 特征 可 以 很 好 地 
预测 端口 扫描 攻击 。 如 果 这 种 访问 次 数 不 多 ， 则 属于 正常 情况 ， 但 如 果 短 时 间 内 有 好 几 百 
个 访问 ， 则 属于 攻击 行为 。 这 种 方法 也 适用 于 其 他 从 网 络 连接 特征 中 预测 网 络 攻击 ， 这 些 
特征 包括 发 送 与 接收 的 字 市 数 和 TCP 错误 数 等 。 


但 如 何 处 理 那 些 “ 未 知 的 未 知 ”? 最 大 的 威胁 可 能 就 来 自从 未 被 识别 和 分 类 的 情况 。 检 测 
潜在 网 络 入 侵 就 是 要 识别 这 些 异 常 ， 我 们 并 不 知道 这 些 连 接 是 不 是 攻击 ， 但 是 它们 和 以 往 
见 过 的 连接 都 不 同 。 


这 里 我 们 可 以 利用 天 均值 之 类 的 非 监督 学 习 技 术 来 识别 异常 网 络 连接 。 天 均值 可 以 根据 每 
个 网 络 连接 的 统计 属性 进行 聚 类 。 从 个 体 上 来 看 结果 徐 群 是 没有 意义 的 ， 但 从 整体 上 看 ， 
结果 矮 群 定义 了 历史 连接 的 类 型 。 因 此 矮 群 帮助 我 们 界定 了 正常 连接 的 区 域 ， 任 何在 区 域 
之 外 的 点 都 是 不 正常 的 ， 因 而 也 就 可 能 属于 异常 情况 。 


5.4 KDD Cup 1999 数 据 集 


KDD Cup (http:/www.sigkdd.org/kddcup/index.php) 是 一 项 数据 挖掘 竞赛 ， 每 年 由 ACM 特 
别 兴趣 小 组 举办 。KDD Cup 每 年 都 给 出 一 个 机 堪 学 习 回 题 和 相关 数据 集 ， 研 究 人 员 应 邀 提 
交 论 文 ， 论 文 将 详细 说 明 研 究 人 员 各 自 就 该 机 器 学 习 问 题 给 出 的 最 佳 方案 。KDD Cup 与 之 
前 的 Kaggle 竞赛 (http:/www.kaggle.com/) 类 似 。1999 年 (http://www.sigkdd.org/kdd-cup- 
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1999-computer-network-intrusion-detection) KDD Cup 竞赛 的 主题 是 网 络 人 入侵 ， 今 天 我 们 仍 
然 可 以 拿 到 当时 的 数据 集 (http:Wkdd.ics.uci.edu/databases/kddcup99/kddcup99.html) 。 本 章 
基于 KDD Cup 1999 数据 集 ， 我 们 将 利用 Spark 构造 一 个 网 络 流量 异常 检测 系统 。 


请 切记 不 要 基于 KDD Cup 1999 数据 集 建立 生产 系统 ! 该 数据 集 并 不 一 定 反 
映 当 时 网 络 流量 的 真实 情况 ， 而 且 即 便 如 此 ， 它 反映 的 网 络 流量 规律 也 是 15 
年 前 的 了 。 


亚运 的 是 ， 举 办 方 已 经 对 原始 网 络 流 量 包 进 行 了 加 工 ， 数 据 转换 成 了 每 个 网 络 连 接 的 统计 信 
息 。 数 据 集 大 小 约 为 708 MB， 包 含 490 万 个 连接 。 数 据 量 比较 大 但 也 不 算 特别 大 ， 刚 好 请 
足 本 章 论述 的 需要 。 数 据 集中 每 个 连接 的 信息 包括 发 送 的 字 市 数 、 登 录 次 数 、TCP 错误 数 
等 。 数 据 集 为 CSV 格式 ， 每 个 连接 占 一 行 ， 包 含 38 个 特征 ， 下 面 是 其 中 一 个 连接 的 样 例 : 


0,tcp,http,SF,215,45076 
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1, 
0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00， 
0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal. 


以 上 代表 一 个 TCP 连接 ， 它 访问 HTTP 服务 ， 发 送 了 数据 215 字 节 ， 收 到 数据 45 706 字 
节 ， 用 户 登 录 成 功 等 。 其 中 许多 特征 代表 统计 次 数 ， 比 如 第 17 列 的 num_file_creations。 


许多 特征 取 值 为 0 或 1， 比 如 第 15 列 su_attempted， 它 们 代表 某 种 行为 出 现 与 否 。 这 些 特 
征 类 似 第 4 章 介 绍 的 用 one-hot 编码 的 类 别 型 特征 ， 但 分 类 和 关联 方式 有 所 不 同 。 每 个 都 
像 是 一 个 “是 / 否 ” 特 征 ， 因 此 可 以 认为 是 一 个 类 别 型 特征 。 将 类 别 型 特征 转换 为 数字 并 
且 按 大 小 排序 并 不 适合 所 有 场景 。 但 对 于 二 元 类 别 型 特征 这 种 特殊 情况 ， 将 其 映射 为 0/1 
的 数值 型 特征 对 于 大 多 数 机 器 学 习 算 法 都 是 没 问 题 的 。 


其 他 的 特征 都 代表 比率 ， 比 如 dst_host_srv_rerror_rate， 取 值 的 范围 为 [0.0,1.0]。 


注意 最 后 的 字段 表示 类 别 标号 。 大 多 数 标号 为 normal， 但 也 有 一 些 样 本 代表 各 种 网 络 攻 
击 。 虽 然 这 些 样本 可 用 于 学 习 如 何 把 “已 知 ”的 攻击 从 正常 连接 中 区 分 开 来 ， 但 这 里 要 讨 
论 的 是 异常 检测 问题 ， 所 以 我 们 更 关心 找 出 新 的 潍 在 攻击 ， 也 就 是 “未 知 ” 攻 击 。 因 此 我 
们 先 不 在 算法 中 使 用 这 些 标号 信息 。 


5.5 初步 尝试 聚 类 
将 kddcup.data.gz 数据 文件 解压 并 复制 到 HDFS 上 。 像 以 前 一 样 ， 这 里 我 们 假设 文件 放 在 


/user/ds/kddcup.data 目录 下 。 启 动 spark-shell 并 把 CSV 格式 数据 加 载 为 String 类 型 的 
RDD: 


val rawData = sc.textFile("hdfs:///user/ds/kddcup.data") 
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先 来 看 看 数据 集 。 我 们 想 知 道 数据 有 哪些 类 别 标号 以 及 每 类 样本 有 多 少 。 以 下 代码 分 类 统 
计 样 本 个 数 ， 按 样本 数 从 多 到 少 排序 ， 然 后 打印 结果 : 


rawData.map(_.split(',').last).countByValue().toSeq. 
sortBy(_. 2).reverse.foreach(printtLn) 


在 Spark 中 区 区 一 行 Scala 代码 就 完成 了 如 此 多 的 任务 ! 可 以 看 到 数据 集中 样本 有 23 个 不 
同类 型 ， 其 中 smurf. 和 neptune. 类 型 的 攻击 最 多 : 


(smurf. ,2807886) 
(neptune. ,1072017) 
(normal. ,972781) 
(satan. ,15892) 


注意 数据 中 有 些 特征 不 是 数值 型 的 。 比 如 第 二 列 可 能 取 值 tcp、udp 或 tcmp， 但 是 天 均值 
聚 类 算法 要 求 特征 为 数据 型 。 最 后 的 标号 列 也 不 是 数值 型 。 我 们 先 简单 忽略 这 些 非 数值 
列 。 以 下 Spark 代码 将 CSV 格式 的 行 拆 分 成 列 ， 删 除 下 标 从 1 开始 的 三 个 类 别 型 列 和 最 后 
的 标号 列 。 保 留 其 他 值 并 将 其 转换 成 一 个 数值 型 (Double 型 对 象 ) 数组 ， 接 着 把 数组 和 标 
号 组 织 成 一 个 元 组 : 


import org.apache.spark.mllib.linalg._ 


val labelsAndData = rawData.map { line => 
val buffer = line.split(',').toBuffer ©@ 
buffer.remove(1, 3) 
val label = buffer.remove(buffer.length-1) 
val vector = Vectors.dense(buffer.map(_.toDouble).toArray) 
(label ,vector) 


} 


val data = labelsAndData.values.cache() 


@ toBuffer 创建 一 个 Buffer， 它 是 一 个 可 变 列 表 。 


均值 在 运行 过 程 中 只 用 到 特征 向 量 ( 即 没有 用 到 数据 集 的 目标 标号 列 )。 因 此 data 这 
个 RDD 只 包含 元 组 的 第 二 个 元 素 ， 可 以 通过 元 组 类 型 RDD 的 values 属性 得 到 。 用 Spark 
MLlib 对 数据 进行 聚 类 非常 简单 ， 只 要 在 代码 中 导入 KMeans 的 实现 类 并 执行 即 可 。 下 面 是 
对 数据 进行 聚 类 的 代码 ， 它 先 建 立 了 KMeansModet 模型 然后 输出 每 个 纂 的 质心 : 


import org.apache.spark.mllib.clustering._ 


val kmeans = new KMeans() 
val model = kmeans.run(data) 


model.clusterCenters.foreach(println) 


程序 输出 两 个 向 量 ， 代 表 天 均值 将 数据 聚 类 成 三 2 个 徐 。 对 本 章 的 数据 集 ， 我 们 知道 连接 
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的 类 型 有 23 个 ， 因 此 程序 肯定 没 能 准确 刻画 出 数据 中 的 不 同 群 组 。 


这 时 利用 给 定 的 类 别 标号 信息 ， 我 们 就 能 直观 地 看 到 两 个 竹中 分 别 包含 哪 些 类 型 的 样本 。 
为 此 ， 可 以 对 每 个 簇 中 每 个 标号 出 现 的 次 数 进行 计数 。 利 用 前 面 得 到 的 均值 模型 ， 下 面 
的 代码 先 为 每 个 数据 点 分 配 一 个 禾 ， 然 后 对 往 - 类 别 对 进行 计数 ， 并 以 可 读 的 方式 输出 : 


val clusterLabelCount = LabeLsAndData.map { case (LabeL ,datum) => 
val cluster = model.predict(datum) 
(cluster ,label) 

}.countByValue 


clusterLabelCount.toSeq.sorted.foreach { 
case ((cluster,label),count) => 


printLn(f"S$cLuster%1sSLabeL%18sscount%8s" ) 目 
} 


@ 使 用 字符 插值 器 对 变量 的 输出 进行 格式 化 。 
结果 显示 聚 类 根本 设 有 任何 作用 。 徐 1 只 有 一 个 数据 点 ! 


0 back . 2203 
0 buffer_overflow. 30 
0 ftp_write. 8 
0 guess_passwd. 53 
0 imap. 12 
0 ipsweep. 12481 
0 Land . 21 
0 loadmodule. 9 
0 multihop. 7 
0 neptune. 1072017 
0 nmap. 2316 
0 normal. 972781 
0 perl. 3 
0 phf . 4 
0 pod . 264 
0 portsweep . 10412 
0 rootkit. 10 
0 satan. 15892 
0 smurf. 2807886 
0 spy. 2 
0 teardrop. 979 
0 warezclient. 1020 
0 warezmaster. 20 
1 portsweep. 1 


5.6 ”HK 的 选择 


显然 将 数据 集聚 类 成 两 个 禾 是 不 够 的 。 但 究竟 聚 类 成 多 少 个 徐 合 适 呢 ? 很 明显 本 章 数据 集 
有 23 种 不 同 的 入 侵 模 式 ， 因 此 看 起 来 至 少 应 该 取 23 或 者 更 大 。 通 常情 况 ， 下 我 们 要 堂 
试 多 个 不 同 的 磊 值 才 能 找到 最 好 的 上 值 。 但 “最 好 ”代表 什么 涵义 呢 ? 


如 果 每 个 数据 点 都 紧 靠 最 近 的 质心 ， 则 可 认为 聚 类 是 较 优 的 。 因 此 我 们 定义 一 个 欧 氏 距离 
函数 和 一 个 返回 数据 点 到 最 近 徐 质 心 距离 的 函数 ， 请 看 如 下 代码 : 


def distance(a: Vector, b: Vector) = 
math.sqrt(a.toArray.zip(b.toArray). 
map(p => p._1 - p._2).map(d => d * d).sum) 


def distToCentroid(datum: Vector, model: KMeansModel) = { 
val cluster = model.predict(datum) 
val centroid = model.clusterCenters(cluster) 
distance(centroid, datum) 


} 


将 欧 氏 距离 的 函数 定义 拆 成 几 部 分 ， 然 后 倒 过 来 看 ， 这 样 会 更 好 理解 。 该 Scala 函数 定义 
可 以 一 口气 读 成 :“ 两 个 向 量 相 应 元 素 的 差 的 平方 的 和 的 平方 根 。” 其 中 代码 a.toArray. 
zip(b.toArray) 对 应 “两 个 向 量 相应 元 素 ”，map(p => p._1 - p._2) 对 应 “ 差 ”， 平方 对 应 
map(d => d * d)， 和 对 应 sum,“ 平 方 根 ” 对 应 math.sqrt。 


定义 好 前 面 两 个 国 数 之 后 ， 就 可 以 为 一 个 给 定 丰 值 的 模型 定义 平均 质心 距离 国 数 : 
import org.apache.spark.rdd._ 


def clusteringScore(data: RDD[Vector], k: Int)= { 
val kmeans = new KMeans() 
kmeans .setk(k) 
val model = kmeans.run(data) 
data.map(datum => distToCentroid(datum, model)).mean() 


} 
现在 我 们 可 以 用 上 述 方法 对 的 取 值 进行 评价 ， 比 如 从 5 到 40， 代 码 如 下 : 


(5 to 40 by 5).map(k => (k, clusteringScore(data, k))). 
foreach(println) 


Scala 通常 采用 (x to y by z) 这 种 形式 的 惯用 语法 来 建立 一 个 数字 集合 ， 该 集合 的 元 素 为 
闭合 区 间 内 的 等 差 数列 。 这 种 语法 可 用 于 快速 建立 一 系列 上 值 ， 如 “5, 10, 15, 20, 25, 30， 
35, 40" ， 然 后 对 每 个 值 分 别 执行 某 项 任务 。 


输出 结果 显示 得 分 随 着 大 的 增加 而 降低 : 


(5,1938.858341805931) 
(10,1689.4950178959496) 
(15,1381.315620528147) 
(20,1318.256644582388) 
(25,932.0599419255919) 
(30,594.2334547238697) 
(35,829.5361226176625) 
(40,424.83023056838846) 
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由 于 聚 类 结果 依赖 于 随机 选择 的 初始 质心 ， 可 能 你 又 会 看 到 稍微 不 同 的 
结果 。 


但 是 这 个 结果 没什么 稀奇 的 。 随 着 徐 的 增加 ， 数 据点 里 最 近 的 质心 肯定 可 以 更 接近 。 实 际 
上 如 果 大 值 等 于 数据 点 的 个 数 ， 由 于 此 时 每 个 点 都 是 自己 构成 的 禾 的 质心 ， 此 时 平均 距离 
为 0。 


更 糟糕 的 情况 是 ， 前 面 的 结果 中 三 35 时 的 距离 居然 比 和 30 的 距离 大 。 这 不 应 该 发 生 ， 因 
为 大 取 更 大 值 时 聚 类 的 结果 应 该 至 少 与 上 取 一 个 较 小 值 时 的 结果 一 样 好 。 问 题 的 原因 在 于 ， 
这 种 给 定 值 的 均值 算法 并 不 一 定 能 得 到 最 优 聚 类 。K 均值 的 迭代 过 程 是 从 一 个 随机 点 
开始 的 ， 因 此 可 能 收敛 于 一 个 局 部 最 小 值 ， 这 个 局 部 最 小 值 可 能 还 不 错 ， 但 并 不 是 全 局 最 
优 的 。 


即使 采用 更 加 智能 的 方法 来 选择 初始 质心 ， 上 述 情 况 依 然 会 存在 。“K 均 值 ++” 和 “KK 均 
值 ” 是 K 均 值 算法 的 变 体 ， 其 初始 质心 算法 更 容易 产生 多 种 多 样 且 相对 分 散 的 初始 质 
心 ， 因 而 更 容易 得 到 较 好 的 聚 类 结果 。 实 际 上 Spark MLlib 实现 的 就 是 “天 均值 算法 
(http:/stanford.io/1ALCOaN ) 。 但 是 ， 不 管 怎 样 这 里 还 是 有 随机 选择 的 因素 ， 所 以 不 能 保证 
全 局 最 优 。 


他 35 时 没 能 取得 最 优 聚 类 结果 ， 这 可 能 是 随机 初始 质心 所 造成 的 ， 也 可 能 是 由 于 算法 在 达 
到 局 部 最 优 之 前 就 过 早 结束 了 。 为 了 改善 聚 类 结果 ， 可 以 采取 多 次 聚 类 的 方法 。 通 过 对 给 
定 的 大 值 进行 多 次 聚 类 ， 每 次 选择 不 同 的 随机 初始 质心 ， 然 后 从 多 次 聚 类 结果 中 选择 最 优 
的 。 算 法 提供 了 setRuns() 方法 ， 我 们 可 以 通过 它 来 设置 在 给 定 大 值 时 运行 的 次 数 。 


增加 迭代 时 间 可 以 优化 聚 类 结果 。 算 法 提供 了 setEpsiton() 来 设置 一 个 国 值 ， 该 国 值 控制 
聚 类 过 程 中 徐 质 心 进行 有 效 移动 的 最 小 值 。 降 低 该 国 值 能 使 质心 继续 移动 更 长 的 时 间 。 


我 们 再 次 运行 这 个 实验 ， 但 这 次 大 取 值 更 大 ， 从 30 到 100。 在 下 面 示例 代码 中 30 到 100 
这 个 范围 用 到 了 Scala 的 并 行 集合 (parallel collection) 。 这 样 对 每 个 大 值 的 聚 类 计算 可 以 在 
Spark shell 中 并 行 执行 。Spark 会 对 所 有 聚 类 计算 任务 进行 统一 管理 。 当 然 每 个 大 对 应 的 并 
行 计算 都 是 在 集群 上 分 布 式 地 执行 的 ， 这 就 是 并 行内 部 的 并 行 。 通 过 充分 利用 大 规模 集群 
的 处 理 能 力 ， 这 种 做 法 能 提高 集群 的 总 体 吞吐 率 。 当 然 ， 这 里 有 一 个 临界 点 ， 同 时 提交 的 
任务 数 超过 这 个 临界 点 后 吞吐 率 反而 会 下 降 。 


kmeans.setRuns(10) 
kmeans.setEpsilon(1.0e-6) © 


(30 to 100 by 10).par.map(k => (k, clusteringScore(data, k))). 
toList.foreach(println) 
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@ 默认 为 1.0e-4， 这 里 比 默认 值 小 。 
这 时 随 着 值 的 增 大 ， 结 果 得 分 持续 下 降 : 


(30,862.9165758614838) 
(40,801.679800071455) 
(50,379.7481910409938) 
(60,358.6387344388997) 
(70,265.1383809649689) 
(80,232.78912076732163) 
(90,230.0085251067184) 
(100,142.84374573413373) 


我 们 要 找到 上 值 的 一 个 临界 点 ， 过 了 这 个 临界 点 之 后 继续 增加 大 值 并 不 会 显著 地 降低 得 分 ， 
这 个 点 就 是 上 值 -得 分 曲线 的 描 点 。 这 条 曲线 通常 在 描 点 之 后 会 继续 下 行 但 最 终 趋 于 水 平 。 
在 本 示例 中 ， 在 过 了 100 这 个 点 之 后 得 分 下 降 还 是 很 明显 ， 所 以 大 的 拐点 值 应 该 大 于 100。 


5.7 基于 R 的 可 视 化 


现在 我 们 有 必要 对 数据 进行 可 视 化 。Spark 本 身 没 有 提供 可 视 化 工具 。 但 我 们 可 以 方便 地 
把 数据 从 HDFS 上 导出 ， 然 后 再 导入 到 像 R (http://www.r-project.org/) 这 样 的 统计 工具 
中 。 这 一 节 我 们 来 简要 说 明基 于 R 的 数据 集 可 视 化 。 


R 可 以 绘制 二 维 或 三 维 空间 中 的 点 ， 但 本 章 的 数据 集 维度 为 38。 因 此 需要 将 数据 集 投影 到 
不 超过 三 维 的 空间 上 。 另 一 方面 ，R 本 身 不 适合 处 理 大 型 数据 集 ， 而 示例 数据 集 对 R 来 说 
肯定 太 大 了 。 因 此 需要 对 数据 集 进 行 采样 ， 这 样 R 才能 将 其 放 入 内 存 。 


开始 我 们 用 k=100 构造 一 个 模型 ， 并 把 每 个 数据 点 都 映射 到 一 个 徐 编 号 。 将 特征 向 量 以 
CSYV 的 格式 写 到 HDFS 上 : 


val sample = data.map(datum => 
model.predict(datum) + "," + datum.toArray.mkstring(",") © 
).sample(false, 0.05) 


sample.saveAsTextFile("/user/ds/sample") 


@ mkString 用 分 隔 符 把 集合 元 素 连 接 成 一 个 字符 串 。 


sample() 函数 用 于 在 所 有 行 中 选择 一 个 较 小 的 子 集 ， 这 样 数 据 就 能 稳妥 地 放 入 R 的 内 存 。 
这 里 选择 了 5% 的 行 ( 没 有 进行 替换 )。 


下 列 R 代 码 从 HDFS 上 读 入 CSV 数 据 。 当然 这 也 可 以 用 rhdfs (https://github.com/ 
RevolutionAnalytics/RHadoop/wiki) 之 类 的 工具 ， 不 过 这 些 工具 需要 一 些 设置 和 安装 工作 。 为 
了 简单 起 见 ， 这 里 我 们 使 用 Hadoop 发 行 版 的 本 地 命令 hdfs。 这 里 需要 将 环境 变量 HADOOP_ 
CONF_DIR 设置 为 Hadoop 配置 文件 的 地 址 ， 而 这 个 配置 文件 定义 了 HDFS 集群 的 地 址 。 
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使 用 三 个 随机 单位 向 量 ，R 代码 将 38 维 数据 集 向 这 三 个 单位 向 量 方向 进行 投影 ， 从 而 得 
到 一 个 三 维 数据 集 。 这 里 我 们 采用 的 是 简单 粗暴 的 降 维 方法 。 当 然 我 们 也 可 以 采用 更 加 复 
杂 的 降 维 算法 ， 比 如 主 成 分 分 析 (http://en.wikipedia.org/wiki/Principal_component_analysis) 
算法 和 奇异 值 分 解 (http://en.wikipedia.org/wiki/Singular_value_decomposition) 算法 。 这 些 
算法 在 R 里 都 有 但 运行 时 间 很 长 。 对 于 本 章 示例 数据 的 可 视 化 ， 采 用 随机 投影 方法 效果 差 
别 不 大 但 速度 却 要 快 很 多 。 


可 以 用 一 个 交互 式 的 3D 图 形 对 结果 进行 展示 。 注 意 这 里 需要 R 运行 环境 支持 rgl 库 和 绘 
图 工具 (比如 Mac OS X 系统 需要 安装 苹果 公司 的 开发 工具 XI11) : 


install.packages("rgl") # First time only 
library(rgl) 
clusters_data <- 

read.csv(pipe("hadoop fs -cat /user/ds/sample/*")) © 
clusters <- clusters data[1] 
data <- data.matrix(clusters_data[-c(1)]) 
rm(clusters_data) 


random_projection <- matrix(data = rnorm(3*ncol(data)), ncol = 3) 
random_projection_norm <- 
random_projection / 
sqrt(rowSums(random_projection*random_projection)) @ 


projected data <- data.frame(data %*% random_projection norm) © 


Num_clusters <- nrow(unique(clusters)) 

palette <- rainbow(num_clusters) 

colors = sapply(clusters, function(c) palette[c]) 
plot3d(projected_data, col = colors, size = 10) 


@ 用 hdfs 命令 读 取 禾 及 数据 。 
@ 创建 三 维 空间 的 随机 单位 向 量 。 
@ 投影 数据 。 


图 5-1 为 可 视 化 的 结果 ， 它 显示 了 三 维 空间 的 数据 点 ， 不 同 得 用 不 同 颜色 表示 。 许 多 点 都 
重 灵 在 一 起 ， 而 且 结果 很 稀 玻 因此 有 些 难 懂 。 然 而 图 形 明 显 呈 “L” 状 。 看 来 数据 点 在 两 
个 维度 上 有 变化 而 在 其 他 维度 上 没什么 变化 。 


这 种 现象 是 合理 的 ， 因 为 数据 集 有 两 个 特征 的 尺度 要 比 其 他 特征 大 得 多 。 大 多 数 特征 的 取 
值 范围 为 0 到 1， 但 发 送 字 节 数 和 接收 字 节 数 这 两 个 特征 的 取 值 为 0 到 数 十 字 节 。 因 此 点 
的 欧 氏 距离 几乎 完全 由 这 两 个 特征 决定 ， 甚 他 特征 似乎 根本 就 不 存在 。 必 须要 对 不 同 维度 
尺度 进行 归 范 化 才能 把 特征 放 在 差不多 的 基准 上 。 
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图 5-1: 随机 3D 投影 


5.8 特征 的 规范 化 


特征 的 规范 化 可 以 通过 将 每 个 特征 转换 为 标准 得 分 (http://en.wikipedia.org/wiki/Standard_ 
score) 来 完成 。 这 就 是 说 用 对 每 个 特征 值 求 平均 ， 用 每 个 特征 值 减 去 平均 值 ， 然 后 除 以 特 
征 值 的 标准 差 ， 如 下 标准 分 计算 公式 所 示 ; 


feature, 一 全 


normalized, = 
Oo, 


i 


由 于 减 去 平均 值 相当 于 把 所 有 数据 点 沿 相 同方 法 移动 相同 距离 ， 不 影响 点 之 间 的 欧 氏 距 
离 ， 所 以 实际 上 减 去 平均 值 对 聚 类 结果 疫 有 影响 。 但 芳 虑 到 一 致 性 ， 我 们 在 处 理 规范 化 时 
还 是 减 去 了 均值 。 


标准 得 分 可 以 通过 每 个 特征 的 个 数 、 总 和 与 平方 和 来 计算 。 这 里 我 们 同时 用 到 两 个 操作 
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reduce 和 fold，reduce 用 于 对 两 个 数组 对 应 元 素 相 加 ，fotd 用 于 把 平方 和 汇总 到 一 个 初 
值 为 0 的 数组 中 : 


val dataAsArray = data.map(_.toArray) 
val numCols = dataAsArray.first().Length 
val n = dataAsArray.count() 
val sums = dataAsArray.reduce( 
(a,b) => a.zip(b).map(t => t. 1 + t. 2)) 
val sumSquares = dataAsArray.fold( 
new Array[Double](numCols) 
)( 
(a,b) => a.zip(b).map(t => t. 1 + t. 2 * t. 2) 
) 
val stdevs = sumSquares.zip(sums).map { 
case(sumSq,sum) => math.sqrt(n*sumSq - sum*sum)/n 
. 


val means = sums.map(_ / n) 


def normalize(datum: Vector)= { 
val normalizedArray = (datum.toArray, means, stdevs).zipped.map( 
(value, mean, stdev) => 
if (stdev <= 0) (valuye - mean) else (value - mean) / stdev 


) 
Vectors.dense(normalizedArray) 
} 
增加 的 取 值 范围 并 在 规范 化 的 数据 上 运行 相同 测试 : 


val normalizedData = data.map(normalize).cache() 
(60 to 120 by 10).par.map(k => 
(k, clusteringScore(normalizedData, k))).toList.foreach(println) 


结果 显示 选取 k=100 可 能 比较 合理 : 


(60,0.0038662664156513646) 
(70,0.003284024281015404) 
(80,0.00308768458568131) 
(90,0.0028326001931487516) 
(100,0.002550914511356702) 
(110,0.002516106387216959) 
(120,0.0021317966227260106) 


对 规范 化 数据 再 次 在 三 维 空间 上 进行 可 视 化 。 如 期 望 的 那样 ， 图 形 显 示 出 更 丰富 的 结构 。 
有 些 点 分 布 在 一 个 方向 上 ， 间 隔 相差 不 远 ， 这 些 点 可 能 是 数据 中 离散 维度 〈 比 如 个 数 ) 的 
投影 。 由 于 有 100 个 徐 群 ， 我 们 很 难 从 图 形 中 看 出 每 个 点 属于 哪个 徐 。 图 中 有 一 个 占据 多 
数 的 大 徐 群 和 有 许多 小 禾 群 ， 小 禾 群 显示 为 紧凑 的 子 区域 (图 5-2 是 整个 三 维 图 形 中 的 一 
部 分 ， 并 经 过 了 放大 处 理 ， 所 以 图 中 有 些 徐 没有 显示 出 来 )。 图 5-2 的 结果 虽然 没有 进一步 
提升 我 们 的 分 析 结 果 ， 但 它 进行 的 完整 性 检查 是 有 帮助 的 。 


1 pe te 


图 5-2: 规范 化 数据 的 随机 三 维 投影 


5.9 类 别 型 变量 


在 本 章 的 前 面 儿 布 中 ， 因 为 MLlib 的 天 均 值 实现 的 欧 氏 距离 函数 中 不 能 使 用 非 数值 型 特 
征 ， 所 以 我 们 把 三 个 类 别 型 特征 排除 掉 了 。 这 种 对 类 别 型 特征 的 处 理 方法 与 第 4 章 的 不 
同 ， 第 4 章 将 原本 为 类 别 型 的 特征 处 理 成 了 数值 型 特征 。 


类 别 型 特征 可 以 用 one-hot 编码 转换 为 几 个 二 元 特征 ， 这 几 个 二 元 特征 可 以 看 成 数值 型 
维度 。 举 个 例子 ， 数 据 集 的 第 二 列 代表 协议 类 型 ， 取 值 可 能 是 tcp、udp 或 tcmp。 可 以 把 
它们 看 成 三 个 特征 ， 分 别 取 名 为 is_tcp、is_udp 和 is_icmp。 这 样 ， ee 
1,0,0，udp 对 应 0,1,0，icmp 对 应 0,0,1。 基 于 one-hot 编码 实现 类 别 型 变量 替换 逻辑 ， 请 
参考 本 书 在 GitHub 上 的 代码 库 ， 这 里 不 再 歼 述 


数据 集 经 过 编码 后 所 占 空间 有 所 增加 ， 这 时 我 们 重新 对 其 进行 规范 化 和 聚 类 。 运 行 时 ， 
可 能 需要 将 上 值 设 得 更 大 。 el 
好 ， 这 样 每 次 就 只 计算 一 个 模型 ; 


基于 人 K 均 值 聚 类 的 网 络 流量 异常 检测 | 83 


(80,0.038867919526032156) 
(90,0.03633130732772693) 
(100,0.025534431488492226) 
(110,0.02349979741110366) 
(120,0.01579211360618129) 
(130,0.011155491535441237) 
(140,0.010273258258627196) 
(150,0.008779632525837223) 
(160,0.009000858639068911) 


即使 重复 运行 10 次 , 取 160 的 聚 类 结果 也 没有 取 150 的 好 。 上 述 示例 结果 表明 应 该 取 
150， 当 然 你 看 到 的 得 分 结果 还 是 可 能 略 有 不 同 。 


5.10 ”利用 标号 的 蚁 信息 

前 面 在 对 聚 类 质量 作 快 速 的 完整 性 检查 时 ， 我 们 使 用 了 数据 点 的 类 别 标号 信息 。 这 个 概 
念 可 以 进一步 规范 化 ， 将 其 作为 评价 聚 类 质量 的 一 种 可 能 方法 ， 这 样 我 们 就 可 以 用 它 选 
择 大 值 。 


如 有 果 一 个 聚 类 结果 好 ， 那 么 结果 禾 应 包含 一 个 或 多 个 已 知 的 攻击 类 型 样本 ， 而 不 应 该 包含 
其 他 类 型 ， 这 种 推断 是 合理 的 。 回 顾 第 4 章 ， 我 们 定义 了 同 质 性 指标 : Gini 不 纯度 和 人 。 
本 市 使 用 入 作 为 同类 性 度量 。 


良好 的 聚 类 结果 徐 中 样本 类 别 大 体 相同 ， 因 而 炳 值 较 低 。 我 们 可 以 对 各 个 徐 的 米 加 权 平 
均 ， 将 结果 作为 聚 类 得 分 : 


def entropy(counts: IterabLe[Int]) = { 
val values = counts.filter(_ > 0) 
val n: Double = values.sum 
values.map { v => 


valL p=v/n 
-p * math.Log(p) 
}.sum 


} 
def clusteringScore( 
normalizedLabelsAndData: RDD[(String,Vector)], 
k: Int) = { 
val model = kmeans.run(normalizedLabelsAndData.values) 


val LabeLsAndCLusters = 
normalizedLabelsAndData.mapValues(model.predict) © 


val clustersAndLabels = labelsAndClusters.map(_.swap) @ 


val LabeLsInCLuster = clustersAndLabels.groupByKey().values © 
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val 


LabeLCounts = LabeLsInCLuster .map( 


_.groupBy(L => L).map(_. 2.size)) @ 


val 


n = normalizedLabelsAndData.count() 


LabeLCounts .map(m => m.sum * entropy(m)).sum / n 日 


} 


© © © © e 


根据 多 


跟 以 前 一 样 ， 


对 每 个 数据 预测 簇 类 别 。 
对 换 键 和 值 。 
按 禾 提 取 标 号 集 

计算 集合 中 各 徐 标 号 出 现 的 次 数 。 


帘 大 小 计算 粹 的 加 权 平 均 。 
ek A lhe 


减 小 ， 因 此 我 们 找到 的 可 能 是 一 个 局 部 最 小 值 。 这 


(80,1. 
(90,0. 


(100， 
(110, 
(120， 
(130， 
(140, 
(150， 
(160， 


Ss] 


0079370754411006) 
9637681417493124) 
0.9403615199645968) 
0.4731764778562114) 
0.37056636906883805) 
0.36584249542565717) 
0.10532529463749402) 
0.10380319762303959) 
0.14469129892579444) 


聚 类 实战 


的 合适 取 值 。 随 着 大 的 增加 ， 炳 不 一 定 会 
里 结果 同样 表明 大 取 150 可 能 比较 合理 


现在 我 们 对 聚 最 后 我 们 来 对 规范 化 后 的 全 体 数 据 进 行 聚 类 ， 并 


取 且 150。 


中 大 部 分 


为 了 大 致 了 解 聚 类 结果 ， 这 里 我 们 同 检 
back . 6 
neptune. 821239 
normal. 255 
portsweep. 114 
satan. 31 
ftp_write. 1 
loadmodule. 1 
neptune. 1 
normal. 41253 
warezclient. 12 
normal. 8 
portsweep. 7365 
warezclient. 1 


i 
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现在 可 以 建立 一 个 真正 的 异常 检测 系统 了 。 异 常 检测 时 需要 度量 新 数据 点 到 最 近 的 徐 质 心 
的 距离 。 如 果 这 个 距离 超过 某 个 国 值 ， 那 么 就 表示 这 个 新 数据 点 是 异常 的 。 我 们 可 以 把 国 
值 设 为 已 知 数据 中 离 中 心 最 远 的 第 100 个 点 到 中 心 的 距离 。 


val distances = normalizedData.map( 
datum => distToCentroid(datum, model) 


) 

val threshold = distances.top(100).Last 
最 后 一 步 就 是 在 新 数据 点 出 现 的 时 候 使 用 国 值 进行 评估 。 举 个 例子 ， 可 以 用 Spark 
Streaming 对 来 源 于 Flume、Kafka 或 HDFS 文件 的 小 批量 数据 计算 函数 值 。 只 要 计算 结果 
超过 国 值 就 触发 邮件 报警 或 更 新 数据 库 。 


作为 示例 ， 我 们 在 原始 数据 集 上 进行 异常 检查 。 这 样 就 能 找 出 输入 数据 中 我 们 认为 最 不 寻 
常 的 异常 数据 。 为 了 便于 说 明 ， 我 们 把 原始 数据 和 解析 后 的 特征 向 量 放 在 一 起 : 


val model = ... 

val originalAndData = ... 

val anomalies = originalAndData.filter { case (original, datum) => 
val normalized = normalizeFunction(datum) 
distToCentroid(normalized, model) > threshold 

}.keys 


为 了 好 玩 ， 下 面 列 出 了 根据 模型 计算 出 的 最 不 寻常 的 异常 点 : 


0,tcp,http, Ss1,299,26280, 
0,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0,15,16, 
0.07,0.06,0.00,0.00,1.00,0.00,0.12,231,255,1.00, 
0.00,0.00,0.01,0.01,0.01,0.00,0.00,normal. 


网 络 安全 专家 估计 很 快 就 能 看 出 为 什么 这 是 一 个 异常 连接 或 者 其 实 不 是 一 个 异常 连接 。 这 
个 数据 点 被 标记 为 normal， 但 却 在 很 短 的 时 间 内 与 同一 个 服务 建立 了 超过 200 个 连接 ， 并 
且 TCP 状态 为 不 正常 的 S1。 从 这 些 现象 看 ， 这 个 数据 点 也 算得 上 不 同 寻 常 。 


5.12 ”小结 


本 质 上 ，KMeansModel 模型 本 身 就 是 一 个 异常 检测 系统 。 前 面 我 们 在 代码 中 演示 了 如 何 用 
它 来 检测 数据 中 的 异常 。 这 些 代 码 同样 可 以 用 于 Spark Streaming (https://spark.apache. 
org/streaming/) 中 ， 在 数据 出 现时 以 准 实时 的 方式 对 数据 评分 ， 如 果 有 异常 就 触发 报警 
或 审查 。 


MLlib 还 有 KMeansModel 的 一 个 变 体 ， 被 称 为 StreamingKMeans。StreamingKMeans 模型 
能 够 根据 增 量 对 簇 进行 更 新 。 有 了 StreamingkMeans， 我 们 就 不 再 只 是 用 已 知 禾 群 评价 着 
数据 ， 而 是 进一步 做 到 近似 地 学 习 新 数据 如 何 影响 聚 类 过 程 了 。 这 也 可 以 集成 到 Spark 
Streaming 上 。 


这 个 聚 类 模型 只 是 一 个 简单 的 实现 。 比 如 由 于 Spark MLlib 目前 只 提供 了 欧 氏 距离 一 种 实 
现 ， 所 以 本 章 示例 中 我 们 采用 的 是 欧 氏 距离 。Spark MLlib 今后 版 本 可 能 会 提供 其 他 忠 离 函 
数 ， 比 如 马 氏 距离 (http://en.wikipedia.org/wiki/Mahalanobis_distance)， 这 样 就 可 能 会 更 好 
地 描述 特征 的 关联 关系 。 


我 们 还 可 以 用 更 复杂 的 聚 类 质量 评估 指标 (http://en.wikipedia.org/wiki/Cluster_ 
analysis#Internal_evaluation) ， 比 如 轮廓 系数 (Silhouette coefficient， http://en.wikipedia.org/ 
wiki/Silhouette_(clustering)) ， 甚 至 可 以 在 不 给 定 标号 的 条 件 下 用 这 些 指 标 来 选择 合适 的 天 
值 。 这 些 指标 既 可 以 评价 得 内 点 的 紧密 程度 又 可 以 评价 点 与 其 他 徐 之 间 的 紧密 程度 。 


最 后 ， 除 了 天 均值 聚 类 外 ， 我 们 还 可 以 尝试 其 他 模型 。 比 如 ， 高 斯 混合 模型 (http:/ 
en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model) 或 DBSCAN (http://en. 
wikipedia.org/wiki/DBSCAN) 可 用 于 处 理 数据 点 和 得 中 心 之 间 更 加 微妙 的 关系 。 


Spark MLlib 的 后 续 版 本 或 其 他 基于 它 的 库 可 能 会 提供 这 些 模型 的 实现 。 


当然 ， 聚 类 的 应 用 不 只 是 局 限 在 异常 检查 。 事 实 上 聚 类 往往 与 使 用 场景 相关 。 在 这 些 场景 
中 ， 实 际 的 得 很 重要 。 比 如 ， 可 以 根据 用 户 的 行为 、 人 和 偏好 和 属性 来 聚 类 。 每 个 钞 本 身 就 可 
能 代表 一 类 顾客 ， 将 这 类 顾客 区 分 出 来 是 很 有 意义 的 。 相 比 学习 “ 年 龄 在 20 到 34 岁 ” 和 
“女性 ”之 类 的 普通 群 组 划分 ， 这 种 客户 划分 方法 的 数据 驱动 程度 更 高 。 
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第 6 章 


基于 潜在 语义 分 析 算 法 分 析 维 基 百 科 


作者 : Sandy Ryza 


去 年 的 斯 诺 登 夫妇 如 今 在 何方 ? 


Capt. Yossarian 


数据 工程 的 大 多 数 任务 都 是 把 数据 “组 装 ” 为 某 种 可 查询 的 格式 。 我 们 可 以 用 形式 化 语言 
对 结构 化 的 数据 进行 查询 。 例 如 ， 用 SQL 来 查询 结构 化 的 表 数 据 。 虽 然 访问 表 数 据 实 际 
上 也 非 易 事 ， 但 从 表面 上 看 ， 准 备 这 种 数据 还 是 很 直观 的 : 只 不 过 是 从 多 个 数据 源 读 取 数 
据 并 写 入 一 张 表 ， 然 后 可 能 再 进行 数据 清洗 或 智能 数据 融合 。 相 比 之 下 ， 处 理 非 结构 化 的 
文本 数据 则 要 困难 得 多 。 要 将 文本 数据 处 理 成 人 类 可 以 理解 的 格式 可 不 是 “组 装 ” 这 么 简 
单 。 即 使 情况 简单 ， 也 需要 给 它 建立 索引 ;， 如果 情况 复杂 ， 其 至 还 得 做 某 种 “强制 性 ”的 
工作 。 给 包含 某 个 特定 词汇 的 文档 创建 标准 索引 可 以 加 快 查询 的 速度 。 但 有 时 候 我 们 希望 
找 出 文档 中 是 否 有 包含 某 个 特定 词汇 的 相关 概念 ， 而 不 是 仅仅 匹配 这 个 特定 词汇 的 字符 
串 。 标 准 索引 常常 无 法 发 掘 文本 主题 的 潜在 结构 。 


潜在 语义 分 析 (LSA，Latent Semantic Analysis) 是 一 种 自然 语言 处 理 和 信息 检索 技术 ， 其 
目的 是 更 好 地 理解 文档 语料库 以 及 文档 中 词 项 的 关系 。 它 将 语料库 提炼 成 一 组 相关 概念 ， 
每 个 概念 捕捉 了 数据 中 一 个 不 同 的 主题 ， 且 通常 与 语料库 讨论 的 主题 相符 合 。 为 了 不 涉及 
过 多 数学 细节 ， 我 们 可 以 把 每 个 概念 看 成 由 三 个 属性 组 成 : 语料库 中 文档 的 相关 度 、 语 料 
库 中 词 项 的 相关 度 ， 以 及 概念 对 描述 主题 的 重要 性 评分 。 举 个 例子 ，LSA 可 能 发 现 一 个 
概念 与 “Asimov” 和 “robot” 高 度 相关 ， 与 文档 “Foundation series” 和 “Science Fiction” 


也 高 度 相关 。 通 过 挑选 出 最 重要 的 概念 ，LSA 可 以 过 滤 掉 不 相关 的 噪声 并 合并 同时 出 现 的 
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主题 ， 从 而 简化 数据 。 


这 种 化 简 技 术 应 用 得 非常 广泛 。 它 可 以 计算 词 项 与 词 项 、 文 档 与 文档 、 词 项 与 文档 之 间 的 
相似 度 评 分 。 通 过 发 掘 语料库 中 的 不 同 主题 模式 ，LSA 算法 在 计算 相似 度 评分 时 不 再 简单 
地 基于 词 项 出 现 的 频率 和 两 个 词 项 同时 出 现 的 频率 ， 而 是 基于 更 深入 的 分 析 。 这 些 相似 度 
度量 方法 适合 根据 词 项 查询 相关 文档 、 按 主题 将 文档 分 组 和 找到 相关 的 词 项 等 任务 。 


LSA 在 降 维 过 程 中 使 用 一 种 称 为 奇异 值 分 解 (SVD，Singular Value Decomposition) 的 线 
性 代数 技术 。 我 们 可 以 把 SVD 看 成 第 3 章 讨 论 的 ALS 分 解 的 升级 版 。 首 先 ， 需 要 根据 词 
项 在 每 个 文档 中 的 出 现 次 数 构 造 一 个 词 项 -文档 矩阵 。 甜 阵 中 每 个 文档 对 应 一 列 ， 每 个 词 
项 对 应 一 行 ， 和 矩阵 的 每 个 元 素 代表 某 个 词 项 在 对 应 文档 中 的 重要 性 。 接 着 ，SVD 将 矩阵 分 
解 成 三 个 矩阵 ， 其 中 一 个 矩阵 代表 文档 中 出 现 的 概念 ， 另 一 个 代表 词 项 对 应 的 概念 ， 还 有 
一 个 代表 每 个 概念 的 重要 度 。 这 三 个 矩阵 的 结构 可 以 让 我 们 通过 去 掉 最 不 重要 的 概念 所 对 
应 的 行 和 列 而 获得 原始 矩阵 的 一 个 低 阶 近似 。 也 就 是 说 ， 将 这 些 低 阶 近似 矩阵 相 乘 可 以 得 
到 原始 矩阵 的 近似 ， 去 掉 的 概念 越 多 ， 就 越 失 真 。 


本 章 将 基于 人 类 知识 库 的 潜在 语义 关系 讨论 如 何 构 建 人 类 知识 库 的 查询 模型 。 具 体 来 说 ， 
我 们 将 在 维基 百科 所 有 文档 组 成 的 语料库 上 运行 LSA 算法 ， 文 本 格式 的 语料库 大 小 约 为 
46 GB。 我 们 会 讨论 如 何 使 用 Spark 进行 数据 预 处 理 ， 包 括 数据 读 取 、 清 洗 并 转换 成 数值 。 
我 们 会 演示 如 何 计算 SVD， 并 解释 怎样 理解 和 利用 SVD 算法 。 


除了 LSA 之 外 ，SVD 还 存在 其 他 很 多 用 途 ， 比 如 识别 气候 趋势 (如 著名 的 Michael Mann 
曲棍球 棒 图 : http:/en.wikipedia.org/wiki/Hockey_stick_controversy) 、 人 脸 识 别 和 图 像 压 缩 
等 。Spark 的 实现 可 以 在 大 量 数 据 集 上 执行 矩阵 因子 分 解 ， 这 就 将 该 新 技术 推 向 了 全 新 的 
应 用 领域 。 


6.1 词 项 -文档 矩阵 


在 进行 分 析 之 前 ，LSA 算法 需要 将 语料库 中 的 文本 转换 成 词 项 - 文档 矩阵 。 该 矩阵 的 每 行 
代表 语料库 中 出 现 的 一 个 词 项 ， 每 列 代表 一 篇 文档 。 不 严格 地 讲 ， 甜 阵 中 每 个 元 素 值 代表 
了 相应 行 上 的 词 项 相对 于 相应 列 上 的 文档 的 权重 。 人 们 提出 了 几 种 方法 来 表示 这 种 权重 ， 
其 中 用 得 最 多 的 是 用 词 项 频率 除 以 文档 频率 ， 该 方法 通常 简写 为 TF-IDF (term frequency 
times inverse document frequency) ， 其 函数 定义 代码 如 下 : 


def termDocWeight(termFrequencyInDoc: Int, totalTermsInDoc: Int, 
termFreqInCorpus: Int, totalDocs: Int): Double = { 
val tf = termFrequencyInDoc.toDouble / totalTermsInDoc 
val docFreq = totalDocs.toDouble / termFreqInCorpus 
val idf = math.Log(docFreq) 
tf * idf 
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TF-IDF 体现 了 我 们 对 词 项 与 文档 关联 度 的 两 个 直观 理解 。 第 一 ,一 个 词 项 在 文档 中 出 现 的 
次 数 越 多 ， 它 相对 于 文档 的 重要 性 越 高 。 第 二 ， 总 体 上 讲 词 项 是 不 平等 的 。 文 档 中 出 现 语 
料 库 中 罕见 词 项 的 意义 比 出 现 常见 词 项 更 大 ， 因 此 指标 就 是 词 项 在 所 有 语料库 中 出 现 次 数 
的 倒数 。 


词 项 在 语料库 中 的 频率 分 布 往往 呈 指 数 型 。 一 个 常用 词 出 现 的 次 数 往往 是 一 个 次 常用 词 出 
现 次 数 的 十 几 倍 ， 是 一 个 罕见 词 出 现 次 数 的 一 百 多 倍 。 如 果 计 算 指标 时 直接 除 以 原始 文档 
频率 ， 罕 见 词 的 权重 就 会 过 大 ， 这 时 相 比 之 下 其 他 非 罕见 词 的 权重 几乎 可 以 忽略 不 计 了 。 
为 了 刻画 这 种 指数 分 布 ， 算 法 对 道 文档 频率 取 对 数 。 这 样 文档 频率 的 差别 就 从 乘 数 级 变 成 
了 加 数 级 。 


这 个 模型 依赖 几 个 假设 。 它 把 每 个 文档 看 成 词 项 的 集合 ， 也 就 是 说 算法 没有 考虑 词 项 的 
顺序 、 句 式 结构 或 否定 情况 。 由 于 只 针对 每 个 词 项 ， 模 型 很 难处 理 多 义 词 。 举 个 例子 ， 
“Radiohead is the best band ever” 和 “I broke a rubber band” 这 两 句 话 中 的 词 项 “band” 含 
义 不 同 ， 模 型 对 此 就 不 能 区 分 。 如 果 两 个 句子 在 语料库 中 出 现 的 次 数 相同 ， 模 型 可 能 就 会 
把 Radiohead 和 rubber 关联 在 一 起 。 


本 章 所 用 的 语料库 有 一 千 万 个 文档 。 如 果 把 那些 星 溪 的 技术 术语 包含 在 内 ， 英 语 语言 总 共 
约 有 一 百 万 个 词 项 。 本 章 的 语料库 只 包含 其 中 的 大 约 几 万 个 。 因 为 语料库 的 文档 数 远 远大 
于 词 项 数 ， 所 以 我 们 的 词 项 - 文档 矩阵 应 该 是 行 和 矩阵， 由 许多 稀 踊 癌 量 组 成 ， 每 个 向 量 代 
表 一 个 文档 。 


将 原始 的 维基 百科 导出 文件 转 成 词 项 - 文档 矩阵 需要 进行 许多 预 处 理 。 首 先 ， 输 入 是 一 个 
巨大 的 XML 文件 ， 其 中 每 个 文档 由 <page> 标签 分 隔 。 我 们 需要 先 对 输入 进行 拆 分 ， 然 后 
才能 将 维基 百科 格式 转换 成 纯 文本 格式 。 接 着 纯 文 本 被 拆 成 词 条 (token) 。 将 词 条 的 不 同 
曲折 词缀 还 原 为 词根 的 过 程 称 为 词 形 归 并 (lemmatization) 。 经 过 词 形 归并 之 后 得 到 的 词 条 
可 以 用 于 计算 词 项 频率 和 文档 频率 。 最 后 我 们 将 这 些 频率 组 织 成 需要 的 向 量 对 象 。 


预 处 理 的 前 几 步 都 可 以 根据 文档 进行 完全 并 行 化 〈 对 应 Spark 中 的 一 组 map 函数 )， 但 计算 
逆 文 档 频率 时 需要 对 所 有 文档 进行 汇总 。 可 以 利用 许多 通用 的 NLP 工具 和 维基 百科 特有 的 
提取 工具 来 完成 这 些 步 又 。 


6.2 ”获取 数据 
我 们 可 以 从 维基 百科 上 导出 所 有 文章 ， 导 出 的 文件 是 一 个 巨大 的 XML 文件 。 我 们 先 从 


http://dumps.wikimedia.org/enwiki 下 载 这 个 XML 文件 ， 然 后 将 这 个 文件 写 入 HDFS 上 , 示 
例 代码 如 下 : 


$ curl -s -L http://dumps.wikimedia.org/enwiki/latest/\ 
$ enwiki-latest-pages-articles-multistream.xml.bz2 \ 
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$ | bzip2 -cd \ 
9 | hadoop fs -put - /user/ds/wikidump.xml 


这 个 过 程 要 花 一 段 时间 。 


6.3 ”分析 和 准备 数据 


下 面 是 导出 文件 的 开头 部 分 : 


<page> 
<title>Anarchism</title> 
<ns>0</ns> 
<id>12</id> 
<revision> 
<id>584215651</id> 
<parentid>584213644</parentid> 
<timestamp>2013-12-02T15:14:01Z</timestamp> 
<contributor> 
<Username>AnomieBOT</username> 
<id>7611264</id> 
</contributor> 
<comment>Rescuing orphaned refs (&quot;autogenerated1&quot; from rev 
584155010; &quot;bbc&quot; from rev 584155010)</comment> 
<text xml:space="preserve">{{Redirect|Anarchist|the fictional character| 
Anarchist (comics)}} 
{{Redirect|Anarchists}} 
{{pp-move-indef}} 
{{Anarchism sidebar}} 
'''Anarchism''' is a [[political philosophy]] that advocates [[stateless society| 
stateless societies]] often defined as [[self-governance|self-governed]] voluntary 
institutions,&lt;ref&gt;&quot;ANARCHISM, a social philosophy that rejects 
authoritarian government and maintains that voluntary institutions are best suited 
to express man's naturaL social tendencies.&quot; George Woodcock. 
&quot;Anarchism&quot; at The Encyclopedia of Philosophy&lt;/ref&gt;&lt;ref&gt; 
&quot;In a society developed on these lines, the voluntary associations which 
already now begin to cover all the fields of human activity would take a still 
greater extension so as to substitute 


现在 打开 Spark shell。 为 了 简化 工作 ， 我 们 使 用 几 个 工具 包 。GitHub 上 有 一 个 Maven 项 
目 ， 我 们 可 以 用 它 来 生成 一 个 JAR 文件 ， 这 个 JAR 文件 包含 所 有 这 些 依赖 包 : 
$ cd lsa/ 


$ mvn package 
$ spark-shell --jars target/ch06-Lsa-1.0.0.jar 


我 们 根据 Apache Mahout 项 目 编写 了 一 个 XmlInputFormat 类 ， 这 个 类 可 以 把 巨大 的 维基 百 
科 导 出 文件 拆 成 文档 。 现 在 我 们 用 这 个 类 来 创建 一 个 RDD: 


import com.cloudera.datascience.common.XmlInputFormat 
import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.io._ 


val path = "hdfs:///user/ds/wikidump.xml" 

Qtransient val conf = new Configuration() 

conf.set(XmlInputFormat.START_TAG_KEY, "<page>") 

conf.set(XmlInputFormat.END_TAG_KEY, "</page>") 

val kvs = sc.newAPIHadoopFile(path, classOof[XmlInputFormat], 
classOof[LongWritable], classOof[Text], conf) 

val rawXmls = kvs.map(p => p._2.toString) 


要 讲述 如 何 将 维基 百科 的 XML 文件 转 成 纯 文本 估计 要 整整 一 章 。 幸 运 的 是 ， 我 们 可 以 利 
用 Cloud9 项 目 提供 的 API 来 完成 所 有 工作 : 


import eduy.umd.cloud9.collection.wikipedia.language._ 
import edu.umd.cloud9.collection.wikipedia._ 


def wikixmlToPlainText(xml: String): Option[(String, String)] = { 
val page = new EnglishWikipediapage() 
Wikipediapage.readPage(page, xml) 
if (page.isEmpty) None 
else Some((page.getTitle, page.getContent)) 

} 


val plainText = rawXmls.flatMap(wikixXmlTopPlainText) 


6.4 ” 词 形 归并 


现在 我 们 得 到 了 纯 文本 形式 的 语料库 ， 接 下 来 要 提炼 出 一 组 词 项 。 这 一 步 有 几 点 需要 特别 
注意 。 第 一 ， 像 the 和 is 之 类 的 常用 词 不 会 为 模型 提供 有 用 信息 ， 却 占用 了 大 量 空间 。 去 
掉 这 些 停 用 词 (stop word) 不 但 能 节省 空间 ， 还 能 提高 忠实 度 。 第 二 ， 相 同意 思 的 词 项 
可 能 有 不 同 词 形 。 比 如 ，monkey 和 monkeys 不 应 该 算 成 不 同 词 项 ， 再 比如 nationalize 和 
nationalization。 把 这 些 不 同 曲折 词缀 合并 成 单个 词 项 的 过 程 成 为 词 干 还 原 (stemming) 或 
词 形 归并 (lemmatization) 。 词 干 还 原 指 去 除 单词 两 端 词缀 的 启发 式 技术 ， 词 形 归 并 方法 则 
更 加 规则 化 。 比 如 前 者 可 能 将 drew 截断 为 dr， 而 后 者 则 更 可 能 给 出 draw 这 个 正确 结果 。 
Stanford Core NLP 项 目 是 一 个 非常 优秀 的 词 干 规约 工具 ， 它 提供 了 Java API， 我 们 可 以 在 
Scala 中 调用 。 下 面 的 代码 接收 纯 文本 形式 的 文档 RDD， 对 文档 进行 词 形 归 并 ， 过 滤 掉 其 
中 的 停 用 词 : 


import edu.stanford.nlp.pipeline._ 
import edu.stanford.nlp.ling.CoreAnnotations._ 


def createNLPPipeline(): StanfordCoreNLP = { 
val props = new Properties() 
props.put("annotators", "tokenize, ssplit, pos, lemma") 
new StanfordCoreNLP(props) 
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} 


def isOnlyLetters(str: String): Boolean = { 
str.forall(c => Character.isLetter(c)) 


} 


def plainTextToLemmas(text: String, stopWords: Set[String], 
pipeline: StanfordCoreNLP): Seq[String] = { 
val doc = new Annotation(text) 
pipeline.annotate(doc) 


val lemmas = new ArrayBuffer[String]() 
val sentences = doc.get(classOf[SentencesAnnotation]) 
for (sentence <- sentences; 
token <- sentence.get(classOf[TokensAnnotation])) { 
val Lemma = token.get(classOf[LemmaAnnotation]) 
if (lemma.length > 2 && !stopWords.contains(lemma) 
&& isOnlyLetters(lemma)) { 目 
lemmas += lemma.toLowerCase 
} 
} 


Lemmas 


} 


val stopWords = sc.broadcast( 
scala.io.Source.fromFile("stopwords.txt).getLines().toSet).value 
val lemmatized: RDD[Seq[String]] = plainText.mapPartitions(it => { 
val pipeline = createNLPPipeline() 
it.map { case(title, contents) => 
plainTextToLemmas(contents, stopWords, pipeline) 
} 
}) 名 


@ 为 防止 垃圾 词 元 ， 需 对 词 元 设 定 最 低 要 求 。 
@ 这 里 使 用 了 mapPartitions 对 每 个 分 区 只 初始 化 一 个 NLP 管道 对 象 ， 而 不 是 为 每 一 个 


文档 初始 化 一 个 NLP 管道 对 象 。 


6.5 计算 TF-IDF 


现在 lemmatized 指向 一 个 词 项 数组 RDD， 每 个 数组 对 应 一 个 文档 。 下 一 步 我 们 要 计算 每 
个 词 项 在 每 个 文档 和 整个 语料库 中 的 频率 。 下 面 的 代码 构建 了 词 项 到 每 个 文档 的 词 项 频率 
的 映射 ; 


import scala.collection.mutable.HashMap 


val docTermFreqs = lemmatized.map(terms => { 
val termFreqs = terms.foldLeft(new HashMap[String, Int]()) { 
(map, term) => { 
map += term -> (map.getOrElse(term, 0) + 1) 
map 


} 
} 


termFreqs 


}) 


后 面 至 少 两 次 要 用 到 结果 RDD: 一 次 用 于 计算 逆 文 档 频 率 ， 另 一 次 用 于 计算 最 终 的 词 项 - 
文档 矩阵 。 因 此 我 们 需要 将 它 缓存 起 来 : 


docTermFreqs.cache() 


现在 来 看 看 计算 文档 频率 (也 就 是 对 每 个 词 项 计算 它 在 整个 语料库 中 的 多 少 个 文档 中 出 现 
过 ) 的 几 种 方法 。 第 一 种 使 用 aggregate 行动 为 每 个 分 区 构建 一 个 词 项 到 频率 的 本 地 map， 
然后 在 驱动 程序 中 将 所 有 map 合并 。aggregate 接受 两 个 国 数 ， 一 个 用 于 把 记录 合并 到 各 
个 分 区 的 结果 对 象 中 ， 另 一 个 用 于 把 两 个 结果 对 象 合并 在 一 起 。 在 本 章 示例 中 ， 每 个 记录 
是 词 项 到 文档 中 该 词 项 频率 的 映射 ， 结 果 对 象 为 词 项 到 文档 集合 中 该 词 项 的 总 词 项 频率 。 
如 果 汇 总 的 记录 类 型 和 结果 对 象 类 型 相同 (比如 求 和 )， 可 以 用 reduce 函数 。 但 如 果 记 录 
类 型 和 结果 类 型 不 同 ， 就 要 使 用 更 强大 的 aggregate 函数 ， 我 们 这 里 就 是 后 面 这 种 情况 : 


val zero = new HashMap[String, Int]() 
def merge(dfs: HashMap[String, Int], tfs: HashMap[String, Int]) 
: HashMap[String, Int] = { 
tfs.keySet.foreach { term => 
dfs += term -> (dfs.getOrElse(term, 0) + 1) 
} 
dfs 


def comb(dfs1: HashMap[String, Int], dfs2: HashMap[String, Int]) 
: HashMap[String, Int] = { 
for ((term, count) <- dfs2) { 
dfs1 += term -> (dfs1.getOrELse(term，0) + count) 
} 
dfs1 
} 


docTermFreqs.aggregate(zero)(merge, comb) 


在 整个 语料库 上 执行 上 述 代码 会 得 到 如 下 结果 : 


java.Lang.0utOfMemoryError: Java heap space 


这 是 什么 情况 ?看 起 来 好 像 文档 中 的 整个 词 项 集合 无 法 放 入 驱动 程序 端的 内 存 。 到 底 有 多 


这 
少 个 词 项 ? 


docTermFreqs.flatMap(_.keySet).distinct().count() 


res0: Long = 9014592 


WN 


结果 词 项 中 有 许多 是 垃圾 词 项 ， 它 们 在 语料库 中 只 出 现 过 一 次 。 去 掉 这 些 低频 词 项 不 但 可 
以 加 快速 度 而 且 能 过 滤 掉 噪声 。 一 种 合理 的 做 法 就 是 只 保留 频率 最 高 的 NN 个 词 项 (这 里 
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的 取 值 约 为 几 万 )。 下 面 的 代码 用 分 布 式 的 方式 计算 文档 频率 。 代 码 和 我 们 演示 一 个 简单 
的 MapReduce 程序 所 用 的 经 典 词 项 计数 程序 差不多 。 文 档 每 出 现 一 个 不 同 的 词 项 ， 程 序 就 
生成 一 个 由 词 项 和 数字 1 组 成 的 键 - 值 对 ，reduceByKey 操作 将 每 个 词 项 在 整个 数据 集 上 
的 值 进行 汇总 。 


val docFreqs = docTermFreqs.flatMap(_.keySet).map((_, 1)). 
reduceByKey(_ + _) 


top 行动 返回 最 大 的 NN 条 记录 给 驱动 程序 。 为 了 适应 词 项 - 次 数 这 种 结构 ， 这 里 我 们 用 了 
一 个 定制 的 ordering 


val numTerms = 50000 
val ordering = Ordering.by[(String, Int), Int](_._2) 
val topDocFreqs = docFreqs.top(numTerms)(ordering) 


有 了 文档 频率 ， 就 可 以 计算 逆 文 档 频率 了 。 这 里 计算 逆 文 档 频 率 是 在 驱动 程序 中 ， 并 不 是 
用 执行 器 分 布 式 执行 的 。 这 样 可 以 在 每 次 引用 词 项 时 避免 重复 的 浮 点 数 数学 运算 。 


val idfs = docFreqs.map{ 
case (term, count) => (term, math.log(numDocs.toDouble / count)) 
}.toMap 


现在 我 们 有 了 计算 TF-IDF 向 量 所 需 的 词 项 频率 和 逆 文 档 频 率 。 但 还 有 最 后 一 个 问题 : 当 


前 map 中 数据 的 键 是 字符 串 类 型 的 ， 而 MLlib 要 求 将 它们 转换 成 整数 型 。 为 此 需要 为 每 个 
词 项 分 配 一 个 唯一 ID: 


val termIds = idfs.keys.zipWithIndex.toMap 


由 于 词 项 ID map 不 是 特别 大 ， 并 且 我 们 在 好 几 个 地 方 都 要 用 到 它 ， 所 以 将 其 设 为 广播 


变量 : 


val bTermIds = sc.broadcast(termIds).vatLue 


最 后 为 每 个 文档 建立 一 个 含 权重 的 TF-IDF 向 量 。 由 于 每 个 文档 只 包含 所 有 词 项 的 一 小 部 
分 ， 所 以 这 里 我 们 使 用 稀疏 癌 量 。 可 以 通过 指定 向 量 大 小 和 一 系列 下 标 -- 值 的 二 元 对 来 构 
造 一 个 MLlib 稀疏 问 量 ， 代 码 如 下 : 


import scala.collection.JavaConversions._ 
import org.apache.spark.mllib.linalg.Vectors 


val vecs = docTermFreqs.map(termFreqs => { 
val docTotalTerms = termFreqs.values().sum 
val termScores = termFreqs.filter { 
case (term, freq) => bTermIds.contatnsKey(term) 
}.map{ 
case (term, freq) => (bTermIds(term), 
bIdfs(term) * termFreqs(term) / docTotalTerms) 
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}.toSeq 
Vectors.sparse(bTermIds.size，termScores) 


}) 


6.6 ”奇异 值 分 解 


现在 有 了 词 项 -文档 矩阵 M， 我 们 的 分 析 工 作 就 可 以 进入 矩阵 分 解 和 降 维 的 步骤 了 。 
MLlib 提供 了 一 个 奇异 值 分 解 算法 (SVD，Singular Value Decomposition) 的 实现 ， 能 处 理 
巨型 矩阵 。 奇 异 值 分 解 算法 接受 一 个 m xn 维和 矩阵 ， 返 回 三 个 矩阵 。 这 三 个 矩阵 的 乘积 近 
似 等 于 原始 的 m x n 维和 矩阵 : 


M~ USV 
。_U 为 m xk 维和 矩阵，U 中 的 列 是 文档 空间 的 正 交 基 。 
。 5 为 kxk 型 对 角 阵 ， 每 个 对 角 元 素 代表 一 个 概念 的 强度 。 
。 本 为 kxn 型 矩阵 ,VV 中 的 列 是 词 项 空间 的 正 交 基 。 


对 于 LSA 模型 ，m 是 文档 的 个 数 ，n 是 词 项 的 个 数 。 分 解 过 程 有 一 个 参数 k， 其 值 不 大 于 
n， 代 表 要 保留 的 概念 的 个 数 。 当 k=n 时 ， 分解 矩阵 的 乘积 精确 重 构 出 原始 矩阵 。k<n 时 ， 
分 解 矩 阵 的 乘积 是 原始 矩阵 的 一 个 低 阶 近似 。 一 般 大 的 取 值 要 远 小 于 z。SVD 算法 保证 在 
最 多 只 采用 大 个 概念 的 约束 下 ， 算 法 结果 是 对 原始 和 矩阵 的 最 优 有 逼近 〈 由 L2 范式 定义 ， 也 
就 是 误差 平方 和 最 小 )。 


要 得 到 和 矩阵 的 奇异 值 分 解 ， 只 要 将 行 向 量 RDD 包装 为 RowMatrix 并 调用 computeSVD 即 可 ， 
代码 如 下 : 


import org.apache.spark.mllib.linalg.distributed.RowMatrix 


termDocMatrix.cache() 

val mat = new RowMatrix(termDocMatrix) 

val k = 1000 

val svd = mat.computeSVD(k, computeU=true) 


由 于 计算 过 程 需 要 多 次 使 用 RDD 数据 ， 所 以 我 们 应 该 事先 将 RDD 缓存 起 来 。 驱 动 程序 端 
运算 的 空间 复杂 度 为 O(n 有 )， 每 个 任务 的 空间 复杂 度 为 O(n)， 需 要 使 用 数据 的 次 数 为 O0D。 


注意 ， 词 项 空间 中 的 每 个 向 量 都 有 一 个 词 项 权重 ， 文 档 空间 中 的 每 个 向 量 都 有 一 个 文档 权 
重 ， 概 念 空 间 中 的 每 个 向 量 都 有 一 个 概念 权重 。 每 个 词 项 、 文 档 或 概念 都 在 各 自 空 间 中 定 
义 了 一 个 轴 ， 词 项 、 文 档 和 概念 的 权重 就 是 在 轴 方 向 上 的 长 度 。 每 个 词 项 或 文档 向 量 都 可 
以 映射 为 概念 空间 里 的 相应 向 量 。 每 个 概念 向 量 可 能 对 应 多 个 词 向 量 和 文档 向 量 ， 甚 中 包 
括 一 个 规范 化 词 向 量 和 文档 向 量 ， 对 概念 向 量 进 行 逆 向 转换 就 得 到 规范 化 的 词 向 量 和 文档 


向 量 。 
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是 nxk 型 矩阵 ， 每 一 行 对 应 一 个 词 项 ， 每 一 列 对 应 一 个 概念 。 这 个 矩阵 定义 了 词 项 空间 
到 概念 空间 的 映射 。 其 中 ， 词 项 空间 中 每 个 点 是 一 个 n 维 向 量 ， 向 量 的 每 个 元 素 是 每 个 词 
项 的 权重 ， 概 念 空间 中 每 个 点 是 一 个 大 维 向 量 ， 向 量 的 每 个 元 素 是 概念 的 权重 。 


类 似 地 ,，U 是 m x 型 矩阵 ，U 中 每 一 行 对 应 一 个 文档 ， 每 一 列 对 应 一 个 概念 。U 定义 了 
一 个 文档 空间 到 概念 空间 的 映射 。 


3 是 一 个 Ex 大 的 对 角 阵 ， 其 中 保存 了 奇异 值 。S 中 每 个 对 角 线 上 的 元 素 对 应 了 一 个 概念 
(因此 对 应 了 地 和 忆 中 的 一 列 ) 。 奇 异 值 的 大 小 对 应 了 概念 的 重要 程度 亦 即 概念 在 解释 不 同 
主题 时 的 能 力 。SVD 的 一 种 可 能 但 效率 不 高 的 实现 是 先 得 到 阶 分 解 ， 具体 做 法 是 先进 行 
n 阶 分 解 ， 不 停 地 去 掉 n-k 个 最 小 奇异 值 ， 直 到 只 剩 下 k 个 奇异 值 (当然 还 有 U 和 矿 中 对 
应 的 列 )。LSA 算法 的 一 个 要 点 是 概念 中 只 有 一 小 部 分 对 表示 数据 是 重要 的 。5 矩阵 中 的 元 
素 直 接 表 示 每 个 概念 的 重要 性 ， 它 们 正好 是 MM 的 特征 值 的 平方 根 。 


2 翁 
6.7 ” 找 出 重要 的 概念 
SVD 算法 的 输出 是 一 组 数值 。 我 们 该 如 何 验证 这 些 数值 实际 有 没有 作用 呢 ? 了 矩阵 表示 
了 词 项 对 概念 的 重要 程度 。 如 前 所 述 ， 一 个 概念 都 对 应 中 一 列 ， 每 个 词 项 都 对 应 六 中 一 
行 。 每 个 元 素 可 以 理解 为 词 项 相对 于 概念 的 相关 度 。 因 此 我 们 可 以 用 如 下 代码 得 到 与 那些 
最 重要 的 概念 最 相关 的 词 项 : 


import scala.collection.mutable.ArrayBuffer 


val v = svd.V 
val topTerms = new ArrayBuffer[Seq[(String, Double)]]() 
val arr = v.toArray 
for (i <- 0 until numConcepts) { 
val offs = i * Vv.numRows 
val termWeights = arr.slice(offs, offs + Vv.NnumRows).zipWithIndex 
val sorted = termWeights.sortBy(-_._1) 
topTerms += Sorted.take(numTerms ) .mapt{ 
case (score, id) => (termIds(id), score) 
} 
} 


topTerms 


注意 让 是 驱动 程序 进程 内 存 里 的 一 个 本 地 和 矩阵， 以 非 分 布 式 的 计算 方式 得 到 。 类 似 地 ， 我 
们 可 以 通过 局 得 到 和 重要 概念 相关 的 词 项 ， 但 由 于 忆 是 一 个 分 布 式 矩 阵 ， 所 以 代码 稍 有 
不 同 。 


def topDocsInTopConcepts( 
svd: SingularValueDecomposition[RowMatrix, Matrix], 
numConcepts: Int, numDocs: Int, docIds: Map[Long, String]) 
: Seq[Seq[(String, Double)]] = { 
val yu = svd.U 


大 所 
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val topDocs = new ArrayBuffer[Seq[(String, Double)]]() 
for (i <- 0 until numConcepts) { 
val docWeights = uy.rows.map(_.toArray(i)).zipWithUniqueId() 
topDocs += docWeights.top(numDocs).map{ 
case (score, id) => (docIds(id), score) ©O 
} 
} 
topDocs 


站 


@ 为 了 讨论 的 连贯 性 ， 我 们 省 略 了 建立 doc ID 映射 的 过 程 。 这 个 过 程 并 不 复杂 ， 详 细 代 
码 请 参考 本 书 对 应 的 GitHub 资料 库 。 


现在 我 们 来 看 看 前 面 的 一 些 概念 : 


val topConceptTerms = topTermsInTopConcepts(svd, 4, 10, termIds) 

val topConceptDocs = topDocsInTopConcepts(svd, 4, 10, docIds) 

for ((terms, docs) <- topConceptTerms.zip(topConceptDocs)) { 
println("Concept terms: " + terms.map(_._1).mkString(", ")) 
println("Concept docs: " + docs.map(_._1).mkString(", ")) 
println() 

} 


Concept terms: summary, licensing, fur, logo, album, cover, rationale, 
gif, use, fair 

Concept docs: File:Gladys-in-grammarland-cover-1897.png, 
File:Gladys-in-grammarland-cover-2010.png, File:1942ukrpoljudeakt4.jpg, 
File:7akeAMapi6nc.jpg, File:Baghdad-texas.jpg, File:Realistic.jpeg, 
File:DuplicateBoy.jpg, File:Garbo-the-spy.jpg, File:Joysagar.jpg, 
File:RizalHighSchoollogo.jpg 


Concept terms: disambiguation, william, james, john, iran, australis, 
township, charles, robert, river 

Concept docs: G. australis (disambiguation), F. australis (disambiguation), 
U. australis (disambiguation), L. maritima (disambiguation), 
G. maritima (disambiguation), F. japonica (disambiguation), 
P. japonica (disambiguation), Velo (disambiguation), 
Silencio (disambiguation), TVT (disambiguation) 


Concept terms: licensing, disambiguation, australis, maritima, rawal, 
upington, tallulah, chf, satyanarayana, valérie 

Concept docs: File:Rethymno.jpg, File:Ladycarolinelamb.jpg, 
File:KeyAirlines.jpg, File:NavyCivValor.gif, File:Vitushka.gif, 
File:DavidViscott.jpg, File:Bigbrotheri3cast.jpg, File:Rawal Lake1.JPG, 
File:Upington location.jpg, File:CHF SG Viewofaltar01.JPG 


Concept terms: licensing, summarysource, summaryauthor, wikipedia, 
summarypicture, summaryfrom, summaryself, rawal, chf, upington 

Concept docs: File:Rethymno.jpg, File:Wristlock4.jpg, File:Meseanlol.jpg, 
File:Sarles.gif, File:SuzlonWinMills.JPG, File:Rawal Lake1.JPG, 
File:CHF SG Viewofaltar01.JPG, File:Upington location.jpg, 
File:Driftwood-cover.jpg, File:Tallulah gorge2.jpg 
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Concept terms: establishment, norway, country, england, spain, florida, 
chile, colorado, australia, russia 
Concept docs: Category:1794 establishments in Norway, 


Category:1838 establishments in Norway, 
Category:1849 establishments in Norway, 
Category:1908 establishments in Norway, 
Category:1966 establishments in Norway, 
Category:1926 establishments in Norway, 
Category:1957 establishments in Norway, 
Template:EstcatCountrylstMillennium, 
Category:2012 establishments in Chile, 
Category:1893 establishments in Chile 


第 一 个 概念 对 应 的 文档 看 起 来 都 是 关于 图 片 的 ， 词 项 看 起 来 都 和 图 片 属性 和 授权 相关 。 
第 二 个 概念 看 起 来 是 一 个 答疑 页 面 。 这 说 明 维 基 百 科 导 出 文件 除了 包含 维基 百科 上 的 
原始 文章 ， 很 可 能 还 包含 一 些 管理 页 面 和 讨论 页 面 。 通 过 检查 中 间 阶 段 的 输出 ， 我 们 
可 以 尽早 发 现 这 类 问题 。 幸 和 运 的 是 Cloud9 项 目 提 供 了 过 滤 这 些 页 面 的 功能 。 修 改 后 的 
wikiXmLToPLainText 方法 代码 如 下 : 


def wikixXmlToPlainText(xml: String): Option[(String, String)] = { 


if (page.isEmpty || !page.isArticle || page.isRedirect || 


page.getTitle.contains("(disambiguation)")) { 
} else{ 

Some((page.getTitle, page.getContent)) 
} 


} 


在 过 滤 后 的 文档 集 上 重新 运行 处 理 过 程 ， 就 会 得 到 如 下 结果 ， 它 看 起 来 比 上 一 次 的 结果 更 
加 合理 : 


Concept terms: disambiguation, highway, school, airport, high, refer, 
number, squadron, list, may, division, regiment, wisconsin, channel, 
county 

Concept docs: Tri-State Highway (disambiguation), 

Ocean-to-Ocean Highway (disambiguation), Highway 61 (disambiguation), 
Tri-County Airport (disambiguation), Tri-Cities Airport (disambiguation), 
Mid-Continent Airport (disambiguation), 99 Squadron (disambiguation), 
95th Squadron (disambiguation), 94 Squadron (disambiguation), 

92 Squadron (disambiguation) 


Concept terms: disambiguation, nihilistic, recklessness, sullen, annealing, 
negativity, initialization, recapitulation, streetwise, pde, pounce, 
revisionism, hyperspace, sidestep, bandwagon 

Concept docs: Nihilistic (disambiguation), Recklessness (disambiguation), 
Manjack (disambiguation), Wajid (disambiguation), Kopitar (disambiguation), 
Rocourt (disambiguation), QRG (disambiguation), 

Maimaicheng (disambiguation), Varen (disambiguation), Gvr (disambiguation) 


Concept terms: department, commune, communes, insee, france, see, also, 
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southwestern, oise, marne, moselle, manche, eure, aisne, iseére 

Concept docs: Communes in France, Saint-Mard, Meurthe-et-Moselle, 
Saint-Firmin, Meurthe-et-Moselle, Saint-Clément, Meurthe-et-Moselle, 
Saint-Sardos, Lot-et-Garonne, Saint-Urcisse, Lot-et-Garonne, Saint-Sernin, 
Lot-et-Garonne, Saint-Robert, Lot-et-Garonne, Saint-Léon, Lot-et-Garonne, 
Saint-Astier, Lot-et-Garonne 


Concept terms: genus, species, moth, family, lepidoptera, beetle, bulbophyllum, 
snail, database, natural, find, geometridae, reference, museum, Noctuidae 
Concept docs: Chelonia (genus), Palea (genus), Argiope (genus), Sphingini, 
Cribrilinidae, Tahla (genus), Gigartinales, Parapodia (genus), 
Alpina (moth), Arycanda (moth) 


Concept terms: province, district, municipality, census, rural, iran, 
romanize, population, infobox, azerbaijan, village, town, central, 
settlement, kerman 

Concept docs: New York State Senate elections, 2012, 

New York State Senate elections, 2008, 

New York State Senate elections, 2010, 

ALabama State House of Representatives elections, 2010, 
Albergaria-a-Velha, Municipalities of Italy, Municipality of MaLmo， 
Delhi Municipality, Shanghai Municipality, G6teborg Municipality 


Concept terms: genus, species, district, moth, family, province, iran, rural, 
romanize, census, village, population, lepidoptera, beetle, bulbophyllum 

Concept docs: Chelonia (genus), Palea (genus), Argiope (genus), Sphingini, 
Tahla (genus), Cribrilinidae, Gigartinales, Alpina (moth), Arycanda (moth), 
Arauco (moth) 


Concept terms: protein, football, league, encode, gene, play, team, bear, 
season, player, club, reading, human, footballer, cup 

Concept docs: Protein FAM186B, ARL6IP1, HIP1R, SGIP1, MTMR3, 
Gem-associated protein 6, Gem-associated protein 7，C2orf30，0S9 (gene), 
RP2 (gene) 


前 两 个 概念 还 是 有 些 模糊 ， 但 其 他 概念 看 起 来 可 以 代表 一 些 有 意义 的 类 别 。 第 三 个 概念 看 
起 来 像 是 法 国 的 某 些 地 方 。 第 四 个 和 第 六 个 概念 分 别 为 动物 和 虫子 的 分 类 。 第 五 个 是 关于 
选举 、 城 市 和 政府 的 。 第 七 个 概念 对 应 的 文章 是 关于 蛋白 质 的 ， 但 有 些 词 项 与 足球 相关 ， 
或 许 牵扯 到 了 提升 健美 效果 的 药物 ?虽然 每 个 概念 都 有 一 些 让 人 费解 的 词 出 现 ， 但 所 有 概 
念 都 显示 出 一 定 程度 上 的 主题 连贯 性 。 


6.8 基于 低 维 近似 的 查询 和 评分 


词 项 与 文档 之 间 的 相关 度 如 何 ? 词 项 与 词 ee 与 一 组 查询 项 最 相关 的 文 
档 是 哪些 ? 原始 的 词 项 - 文档 矩阵 为 解决 这 些 问 题 提 供 了 一 个 简单 的 方法 。 我 们 可 以 通过 
计算 矩阵 中 两 个 列 向 量 之 间 的 余下 相似 度 得 到 两 个 词 项 的 相关 大 得 分 余弦 相似 度 度 量 了 
es ii 在 高 维 文档 空间 中 ， 方 向 相同 的 两 个 向 量 彼此 是 相关 的 。 两 个 向 量 
的 余 强 相似 度 可 以 通过 它们 的 点 积 除 以 向 量 的 长 度 来 得 到 。 自 然 语 言 处 理 和 信息 检索 应 用 
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广泛 采用 余弦 相似 度 作 为 度量 词 项 和 文档 权重 向 量 相似 性 的 指标 。 类 似 地 ， 对 两 个 文档 的 
相关 度 得 分 可 以 通过 这 两 个 文档 对 应 的 两 个 行 向 量 之 间 的 余弦 相似 度 来 计算 。 词 项 和 文档 
之 间 的 相关 度 得 分 就 更 简单 了 ， 就 是 矩阵 中 相应 行列 的 相交 点 。 


但 是 ， 上 述 相 似 度 计算 是 基于 词 项 和 文档 相互 关系 的 粗浅 理解 ， 依 赖 简单 的 频率 计算 。 
LSA 算法 可 以 基于 对 语料库 更 深层 次 的 理解 来 计算 相似 度 得 分 。 举 个 例子 来 说 ， 如 果 词 项 
artillery 在 文章 “Normandy landings” 没 有 出 现 ， 但 LSA 算法 可 以 根据 artillery 和 howitzer 
在 其 他 文档 中 同时 出 现 来 发 掘 artillery 和 文章 的 关系 。 


LSA 算法 的 另 一 个 优点 就 是 效率 高 。 它 将 重要 信息 表示 为 低 维 向 量 ， 这 样 我 们 就 不 用 处 
时 原始 的 词 项 -文档 和 矩阵。 考虑 给 定 一 个 词 项 寻找 与 之 最 相关 的 其 他 词 项 的 问题 。 如 果 
采用 前 面 提 到 的 粗浅 方法 ， 我们 需要 计算 词 项 列 向 量 和 词 项 -文档 矩阵 中 所 有 其 他 列 向 
量 的 点 积 。 这 里 需要 的 乘法 运行 次 数 和 词 项 个 数 与 文档 个 数 的 乘积 成 正比 。 通 过 采用 概念 
空间 的 表示 并 将 其 映射 回 词 项 空间 ，LSA 算法 可 以 达到 相同 的 效果 ， 但 乘法 运算 的 次 数 
与 词 项 个 数 和 左 的 乘积 成 正比 。 低 阶 近似 对 数据 相关 模式 进行 了 编码 ， 所 以 我 们 无 需 查 询 
整个 语料库 。 


6.9 词 项 - 词 项 相关 度 


LSA 将 词 项 之 间 的 关系 解释 为 重 构 出 来 的 低 阶 近似 阵 中 的 两 个 列 之 间 的 余弦 相似 度 。 也 就 
是 说 ， 该 矩阵 可 以 通过 将 三 个 近似 因子 阵 相 乘 得 到 。LSA 算法 背后 的 思想 是 这 个 低 阶 矩阵 
是 对 数据 更 有 用 的 表示 。 这 些 用 途 表 现在 以 下 几 个 方面 : 


。 通过 合并 相关 词 项 来 处 理 同 义 词 
。 通过 对 词 项 的 不 同 含义 赋予 低 的 权重 来 处 理 多 义 词 
。 过 滤 品 声 


但 是 ， 要 得 到 余弦 相似 度 并 不 一 定 需 要 计算 出 矩阵 的 元 素 。 线 性 代数 运算 告诉 我 们 重 构 矩 
阵 中 的 两 个 列 的 余弦 相似 度 正好 等 于 5S 六 的 相应 列 的 余弦 相似 度 。 考 虑 寻找 一 个 词 项 最 相 
关 的 一 组 词 项 的 问题 。 计 算 词 项 与 其 他 所 有 词 项 之 间 的 余弦 相似 度 等 价 于 先 将 VS 中 的 每 
一 行 归 一 化 ， 然 后 乘 以 词 项 对 应 的 行 。 得 到 的 结果 向 量 中 每 个 元 素 代 表 了 词 项 与 查询 项 之 
间 的 相似 度 。 


为 了 节省 篇 幅 ， 我 们 省 略 了 计算 VS 和 行 归 一 化 方法 的 实现 代码 ， 大 家 可 以 参考 本 书 附带 
GitHub 资料 库 : 


De 


import breeze.linalg.{DenseVector => BDenseVector} 
import breeze.linalg.{DenseMatrix => BDenseMatrix} 


def topTermsForTerm( 
normalizedVS: BDenseMatrix[Double], 


termId: Int): Seq[(Double, Int)] = { 
val rowVec = new BDenseVector[Double]( 
row(normalizedVS, termId).toArray) © 


val termScores = (normalizedVS * rowVec).toArray.zipWithIndex ©@ 


termScores.sortBy(-_._1).take(10) © 
} 


val VS = multiplyByDiagonalMatrix(svd.V, svd.s) 
val normalizedVS = rowsNormalized(VS) 


def printRelevantTerms(term: String) { 
val id = idTerms(term) 
printIdWeights(topTermsForTerm(normalizedVS, id, termIds) 


} 
@ 在 古 中 查询 给 定 词 项 ID 对 应 的 行 。 
@ 计算 每 个 词 项 的 得 4 
@ 找 出 最 高 得 分 的 词 项 。 


下 面 是 一 些 样 例 词 项 的 最 相关 的 词 项 得 分 情况 : 


printRelevantTerms("algorithm") 


(algorithm,1.000000000000002)，(heuristic,0.8773199836391916)， 
(compute,0.8561015487853708), (constraint,0.8370707630657652), 
(optimization,0.8331940333186296), (complexity,0.823738607119692)，, 
(algorithmic,0.8227315888559854), (iterative,0.822364922633442)， 
(recursive,0.8176921180556759), (minimization,0.8160188481409465) 


printRelevantTerms("radiohead") 


(radiohead,0.9999999999999993), (lyrically,0.8837403315233519)， 
(catchy,0.8780717902060333), (riff,0.861326571452104)， 
(Lyricsthe,0.8460798060853993), (lyric,0.8434937575368959)， 
(upbeat ,0.8410212279939793)， (song,0.8280655506697948)， 
(musically,0.8239497926624353),(anthemic,0.8207874883055177) 


printRelevantTerms("tarantino") 


(tarantino,1.0), (soderbergh,0.780999345687437), 

(buscemi ,0.7386998898933894), (screenplay,0.7347041267543623)，, 
(spielberg,0.7342534745182226), (dicaprio,0.7279146798149239)，, 
(filmmaking,0.7261103750076819), (lumet,0.7259812377657624)， 
(directorial,0.7195131565316943), (biopic,0.7164037755577743) 


6.10 ”文档 -文档 相关 度 


同样 可 以 计算 文档 之 间 的 相关 度 。 要 计算 两 个 文档 之 间 的 相似 度 ， 只 要 计算 ws 和 w'S 之 
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间 的 余 强 相似 度 ， 这 里 是 U 中 词 项 i 对 应 的 行 。 要 计算 一 个 文档 和 其 他 所 有 文档 的 相似 
度 ， 只 要 计算 规范 化 的 (U 5) w。 


由 于 以 背 后 是 一 个 RDD， 而 不 是 本 地 矩阵 ， 所 以 这 里 的 实现 方法 稍 有 不 同 : 


import org.apache.spark.mllib.linalg.Matrices 


def topDocsForDoc(normalizedUS: RowMatrix, docId: Long) 
: Seq[(Double, Long)] = { 
val docRowArr = row(normalizedUS, docId) © 
val docRowVec = Matrices.dense(docRowArr.length, 1, docRowArr) 


val docScores = normalizedUS.multiply(docRowVec) 外 


val allDocWeights = docScores.rows.map(_.toArray(0)). 
zipWithUniqueId() © 


allDocWeights.filter(!_._1.isNaN).top(10) @ 


} 
val US = multiplyByDiagonalMatrix(svd.U, svd.s) 


val normalizedUS = rowsNormalized(US) 


def printRelevantDocs(doc: String) { 
val id = idDocs(doc) 
printIidWeights(topDocsForDoc(normalizedUS, id, docIds) 
} 


@ 在 US 中 查找 给 定 doc ID 对 应 的 行 。 

@ 计算 每 个 文档 的 得 分 。 

@ 找 出 得 分 最 高 的 文档 。 

@ 如 果 忆 中 对 应 行 元 素 全 为 0， 则 文档 得 分 可 能 是 NaN。 所 以 我 们 需要 将 这 些 行 去 掉 。 


下 面 给 出 一 些 样 例文 档 的 最 相似 的 文档 : 


printRelevantDocs("Romania") 


(Romania,0.9999999999999994) ，(Roma in Romania,0.9229332158078395 ) ， 
(Kingdom of Romania,0.9176138537751187) ， 

(Anti-Romanian discrimination,0.9131983116426412)， 

(Timeline of Romanian history,0.9124093989500675) ， 

(Romania and the euro,0.9123191881625798 ) ， 

(History of Romania,0.9095848558045102 ) ， 

(Romania-United States relations,0.9016913779787574), 

(Wiesel Commission,0.9016106300096606)， 

(List of Romania-related topics,0.8981305676612493) 


printRelevantDocs("Brad Pitt") 


(Brad Pitt,0.9999999999999984), (Aaron Eckhart,0.8935447577397551), 
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(Leonardo DiCaprio,0.8930359829082504), (Winona Ryder,0.8903497762653693 ) ， 
(Ryan Phillippe,0.8847178312465214), (Claudette CoLbert ,0.8812403821804665 ) ， 
(Clint Eastwood,0.8785765085978459), (Reese Witherspoon,0.876540742663427 ) ， 
(Meryl Streep in the 2000s,0.8751593996242115 ) ， 

(Kate Winslet,0.873124888198288) 


printRelevantDocs("Radiohead") 


(Radiohead,1.0000000000000016)，(Fightstar ,0.9461712602479349)， 
(R.E.M. ,0.9456251852095919), (Incubus (band),0.9434650141836163), 
(Audioslave,0.9411291455765148), (Tonic (band),0.9374518874425788), 
(Depeche Mode,0.9370085419199352), (Megadeth,0.9355302294384438)， 
(Alice in Chains,0.9347862053793862), (Blur (band),0.9347436350811016) 


6.11 词 项 -文档 相关 度 


怎样 计算 词 项 和 文档 之 间 的 相关 度 ? 这 等 价 于 计算 词 项 - 文档 矩阵 的 低 阶 近似 阵 相应 词 
项 与 文档 对 应 的 元 素 ， 即 wo 5 v,， 其 中 ww 是 U 中 文档 对 应 的 行 ,v, 是 中 词 项 对 应 的 
行 。 经 过 简单 的 线性 代数 运算 就 可 以 看 出 ， 词 项 和 每 个 文档 的 相似 度 就 是 US w。 结 果 向 
量 中 的 每 个 元 素 代表 文档 与 查询 项 之 间 的 相似 度 。 另 一 个 方向 上 文档 与 每 个 词 项 的 相似 度 


是 2 SV.: 


def topDocsForTerm(US: RowMatrix, V: Matrix, termId: Int) 
: Seq[(Double, Long)] = { 
val rowArr = row(V, termId).toArray 
val rowVec = Matrices.dense(termRowArr.length, 1, termRowArr) 


val docScores = US.multiply(termRowVec) © 


val allDocWeights = docScores.rows.map(_.toArray(0)). 
zipWithUniqueId() @ 
allDocWeights .top(10) 
} 


def printRelevantDocs(term: String) { 
val id = idTerms(term) 
printIdWeights(topDocsForTerm(normalizedUS, svd.V, id, docIds) 


} 
@ 计算 每 个 文档 的 得 分 。 
@ 找 出 得 分 最 高 的 文档 。 


printRelevantDocs("fir") 


(Silver tree,0.006292909647173194 ) ， 

(See the forest for the trees,0.004785047583508223 ) ， 
(EucaLyptus tree,0.004592837783089319 ) ， 

(Sequoia tree,0.004497446632469554)， 

(Willow tree,0.004442871594515006 ) ， 

(Coniferous tree,0.004429936059594164) ， 
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(Tulip Tree,0.004420469113273123 ) ， 
(National tree,0.004381572286629475 ) ， 
(Cottonwood tree,0.004374705020233878 ) ， 
(Juniper Tree,0.004370895085141889) 


printRelevantDocs("graph") 


(K-factor (graph theory),0.07074443599385992),， 

(Mesh Graph,0.05843133228896666) ，(Mesh graph,0.05843133228896666 ) ， 

(Grid Graph,0.05762071784234877) ，(Grid graph,0.05762071784234877 ) ， 

(Graph factor,0.056799669054782564)，(Graph (economics),0.05603848473056094), 
(Skin graph,0.05512936759365371), (Edgeless graph,0.05507918292342141) ， 
(Traversable graph,0.05507918292342141) 


6.12 多 词 项 查询 


最 后 ， 我 们 该 怎样 实现 多 个 词 项 的 查询 ”找到 与 单个 词 项 相关 的 文档 只 需 从 六 中 选 出 与 该 
词 项 相应 的 行 。 这 等 价 于 用 只 有 一 个 非 零 元 素 的 词 向 量 乘 以 广 相反 ， 如 果 是 多 个 词 项 ， 
只 要 用 包含 多 个 非 零 元 素 的 词 向 量 乘 以 户 从 而 计算 出 概念 - 空间 向 量 。 为 了 保持 原始 词 
项 -文档 矩阵 的 权重 机 制 ， 将 查询 中 的 词 项 权重 值 设 为 词 项 的 逆 文 档 频率 。 从 革 种 意义 上 
说 ， 这 种 查询 方式 就 像 是 先 在 只 有 几 个 词 项 的 语料库 中 增加 文档 ， 将 该 文档 对 应 低 阶 近 似 
词 项 -文档 矩阵 的 一 行 ， 然 后 求 该 行 与 矩阵 中 其 他 行 的 余 强 相似 度 。 


import breeze.linalg.{SparseVector => BSparseVector} 


def termsToQueryVector( 
terms: Seq[String], 
idTerms: Map[String, Int], 
idfs: Map[String, Double]): BSparseVector[Double] = { 
val indices = terms.map(idTerms(_)).toArray 
val values = terms.map(idfs(_)).toArray 
new BSparseVector[Double](indices, valuyes, idTerms.size) 


} 


def topDocsForTermQuery( 
US: RowMatrix, 
V: Matrix, 
query: BSparseVector[Double]): Seq[(Double, Long)] = { 
val breezeV = new BDenseMatrix[Double](V.numRows, V.numCols, 
V.toArray) 
val termRowArr = (breezeV.t * query).toArray 


val termRowVec = Matrices.dense(termRowArr.length, 1, termRowArr) 
val docScores = US.multiply(termRowVec) @ 
val allDocWeights = docScores.rows.map(_.toArray(0)). 


zipWithUniqueId() @ 
allDocWeights. top(10) 


def printRelevantDocs(terms: Seq[String]) { 


val queryVec = termsToQueryVector(terms, idTerms, idfs) 
printIdWeights(topDocsForTermQuery(US, svd.V, queryVec), docIds) 


} 
@ 计算 每 个 文档 的 得 分 。 
@ 找 出 得 分 最 高 的 文档 。 


printRelevantDocs(Seq("factorization", "decomposition")) 


(K-factor (graph theory),0.04335677416674133), 
(Matrix ALgebra,0.038074479507460755 ) ， 

(Matrix aLgebra,0.038074479507460755 ) ， 

(Zero Theorem,0.03758005783639301) ， 

(Birkhoff-von Neumann Theorem,0.03594539874814679 ) ， 
(Enumeration theorem,0.03498444607374629 ) ， 
(Pythagoras' theorem,0.03489110483887526 ) ， 

(Thales theorem,0.03481592682203685)， 

(Cpt theorem,0.03478175099368145 ) ， 

(Fuss' theorem,0.034739350150484904) 


6.13 小结 


除了 用 于 文本 分 析 ， 奇 异 值 分 解 和 它 的 姊妹 技术 主 成 分 分 析 ， 
(eigenface) 是 人 脸 识别 的 常用 方法 ， 它 采用 了 这 种 技术 来 悍 


还 有 其 他 很 多 应 用 。 特 征 脸 
E 解 人 类 脸 部 的 不 同 模式 。 在 


气象 学 研究 中 ， 可 以 使 用 这 个 技术 从 包含 噪声 的 不 同 数据 源 中 发 现 类 似 年 轮 一 样 的 全 球 气 
温 变 化 趋势 。 著 名 的 Michael Mann 曲棍球 棒 图 (http://en.wikipedia.org/wiki/Hockey_stick_ 
controversy) 描绘 了 整个 20 世纪 气温 升 高 的 规律 ， 这 其 实 就 是 所 谓 的 概念 。 奇 异 值 分 解 和 
约 为 最 重要 的 两 到 三 个 概念 后 ， 


PCA 算法 也 用 于 高 维 数据 集 的 可 视 化 。 但 一 个 数据 集 被 归 
我 们 就 可 以 将 它 绘制 成 人 类 可 以 观察 的 图 形 了 。 


还 有 许多 其 他 方法 可 以 用 于 理解 海量 文本 语料库 。 比 如 潜在 狄 氏 配置 (LDA，Latent 
Dirichlet Allocation，http:/en.wikipedia.org/wikiLatent_Dirichlet_allocation) 就 是 其 中 一 种 
技术 。 作 为 一 个 话题 模型 ， 该 技术 可 以 从 语料库 中 推断 出 一 组 话题 并 计算 出 每 个 文档 参与 


该 话题 的 程度 。 
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第 7 章 


用 GraphX 分 析 伴生 网 络 


作者 : Josh Wills 


这 是 一 个 小 世界 ， 一 个 不 断 穿 越 自身 的 小 世界 。 
David Mitchell 


数据 科学 家 形形色色 ， 其 学 术 背 景 也 大 相 径 庭 。 他 们 大 部 分 具有 计算 机 科学 、 数 学 和 物理 
学 背景 ， 但 也 有 不 少 成 功 的 数据 科学 家 具有 神经 学 、 社 会 学 和 政治 学 背景 。 尽 管 这 些 研究 
领域 研究 的 内 容 各 不 相同 〈 比 如 有 的 研究 大 脑 ， 有 的 研究 人 类 ， 还 有 的 研究 政治 机 构 )， 
也 不 要 求学 生 学 习 编 程 ， 但 它们 有 两 个 共同 的 特点 ， 这 两 个 共同 点 使 得 这 些 领 域 司 产 数据 
科学 家 。 


第 一 ， 这 些 领域 都 需要 理解 实体 间 的 关系 ， 不 论 是 神经 元 之 间 的 关系 ， 还 是 人 类 个 体 之 间 
的 关系 ， 抑 或 是 国家 与 国家 之 间 的 关系 ， 而 且 都 需要 知道 这 些 关 系 如 何 影响 实体 的 具体 行 
为 。 第 二 ， 随 着 过 去 十 年 电子 数据 的 爆炸 式 增长 ， 研 究 人 员 可 以 获得 有 关 这 些 关 系 的 海量 
信息 ， 而 这 些 海 量 数据 要 求 他 们 具备 获取 和 管理 这 些 数 据 的 新 技能 。 


随 着 这 些 研究 人 员 之 间 以 及 研究 人 员 与 计算 机 科学 家 之 间 合 作 的 增多 ， 他 们 发 现 许多 关 
系 分 析 技 术 也 能 用 于 解决 其 他 跨 领 域 的 问题 。 于 是 ， 以 图 论 为 工具 的 网 络 科 学 (network 
science) 就 诞生 了 。 图 论 是 一 个 数学 学 科 ， 研 究 一 组 实体 ( 称 为 顶点 ) 之 间 两 两 关系 〈 称 
为 边 ) 的 特点 。 图 论 也 被 广泛 应 用 于 计算 机 科学 ， 比 如 研究 数据 结构 、 计 算 机 架构 和 网 络 
设计 (比如 因特网 等 )。 
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图 论 和 网 络 科 学 也 对 商业 领域 产生 了 深远 影响 。 几 乎 所 有 大 型 互联 网 公司 都 建立 了 关系 网 
络 ， 通 过 对 这 些 重要 的 关系 网 络 进行 分 析 ， 这 些 公司 获得 了 巨大 的 价值 和 更 多 的 竞争 优 
势 。 亚 马 进 和 Netflix 分 别 建立 并 掌握 了 顾客 - 商品 购买 关系 和 用 户 - 电影 评分 关系 ， 并 
且 基 于 这 些 关 系 构建 各 自 的 推荐 算法 。Facebook 和 LinkedIn 则 构建 了 人 类 关系 图 谱 并 对 这 
些 关 系 进行 分 析 ， 目 的 就 是 为 了 更 好 地 组 织 内 容 、 提 升 广告 效果 以 及 帮助 人 们 建立 新 的 关 
系 。 在 构建 关系 网 络 方面 ， 最 有 名 的 例子 可 能 要 数 谷 歌 创 始 人 发 明 的 PageRank 算法 ， 该 
算法 从 根本 上 改善 了 万 维 网 的 搜索 方式 。 


这 些 以 网 络 为 中 心 的 公司 的 计算 和 分 析 需 求 促使 了 MapReduce 等 分 布 式 处 理 框架 的 产生 。 
与 此 同时 ， 这 些 公 司 也 雇用 了 许多 数据 科学 家 ， 使 用 这 些 工具 对 越 来 越 多 的 数据 进行 更 快 
的 分 析 。MapReduce 框架 最 初 就 是 为 了 求解 PageRank 算法 核心 方程 式 设计 的 ， 该 框架 提 
供 了 一 种 可 扩展 和 可 靠 的 方式 。 随 着 图 谱 越 来 越 大 ， 数 据 科 学 家 需要 更 快 地 进行 分 析 ， 于 
是 不 断 有 新 的 并 行 图 处 理 框架 被 开发 出 来 ， 比 如 谷歌 的 Pregel、 雅 虎 的 Giraph 和 卡 内 基 梅 
隆 大 学 的 GraphLab。 这 些 框架 以 图 处 理 为 中 心 ， 支 持 容 错 和 迭代 式 内 存 计算 ， 对 某 些 类 型 
的 图 计算 的 处 理 效率 大 大 高 于 对 应 的 数据 并 行 式 MapReduce 作业 。 


本 章 将 介绍 Spark 之 上 的 一 个 扩展 工具 GraphX， 它 支持 Pregel、Giraph 和 GraphLab 中 
的 许多 图 并 行 处 理 任务 。 相 比 于 Pregel、Giraph 和 GraphLab 这 些 定 制 的 图 计算 框架 ， 
GraphX 无 法 在 每 个 图 计算 上 都 与 它们 一 样 快 ， 但 由 于 GraphX 基于 Spark， 在 进行 数据 分 
析 过 程 中 ， 如 果 你 想 引 入 GraphX 对 以 网 络 为 中 心 的 数据 集 进 行 分 析 是 非常 方便 的 。 有 了 
GraphX， 你 能 够 像 往常 一 样 使 用 熟悉 的 Spark 抽象 来 进行 图 并 行 编程 。 


7.1 对 MEDLINE 文 献 引 用 索引 的 网 络 分 析 


MEDLINE (Medical Literature Analysis and Retrieval System Online， 医 学 文献 在 线 分 析 
和 检索 系统 ) 是 一 个 学 术 论 文 数据 库 ， 收 录 发 表 在 生命 科学 和 医学 领域 期 刊 上 的 文献 。 
MEDLINE 由 美国 国家 卫生 研究 院 (National Institute of Health，NIH) 下 属 的 国家 医学 图 
书馆 (National Library of Medicine，NLM) 管理 并 发 行 。 它 的 文献 引用 索引 记录 了 数 千 种 
期 刊 上 发 表 的 论文 ， 最 早 论文 的 可 以 追溯 到 1879 年 。 从 1971 年 开始 MEDLINE 对 医科 学 
校 提 供 在 线 访问 ， 从 1996 年 开始 通过 万 维 网 对 普通 公众 开放 。 主 数据 库 收 录 了 两 千 多 万 
篇 文章 ， 其 中 最 早 的 文章 发 表 在 20 世纪 50 年 代 初 期 ,该 数据 库 每 个 工作 日 都 更 新 。 


由 于 MEDLINE 引用 量 非常 大 而 且 更 新 频率 快 ， 研 究 人 员 在 所 有 文献 引用 索引 上 开发 了 一 
套 全 面 的 语义 标签 ， 称 为 MeSH (Medical Subject Headings)。 这 些 标签 提供 了 一 个 有 用 的 
框架 ， 使 用 MeSH， 人 们 就 可 以 在 阅读 文献 时 知道 文献 之 间 的 关系 。 同 时 人 们 基于 MeSH 
开发 了 许多 数据 产品 : 2001 年 PubGene 向 人 们 展示 了 第 一 个 生物 医学 文本 挖掘 的 生产 应 
用 。 这 是 一 个 搜索 引擎 ， 人 们 可 以 利用 它 查 看 MeSH 术语 的 关系 图 谱 ， 而 正 是 这 个 图 谱 将 
文档 连接 在 一 起 。 
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本 章 我 们 将 使 用 Scala、Spark 和 GraphX 来 获取 、 转 换 并 分 析 MeSH 术语 网 络 ， 这 些 术 语 
来 自 MEDLINE 近期 公开 的 引用 数据 子 集 。 我 们 的 网 络 分 析 思 想来 自 于 Kastrin 等 于 2014 
年 发 表 的 论文 “Large-Scale Structure of a Network of Co-Occurring MeSH Terms: Statistical 
Analysis of Macroscopic Properties”。 但 我 们 使 用 了 一 个 不 同 的 引用 数据 子 集 ， 同 时 原 论文 
中 采用 的 是 R 工具 包 和 C++ 代码 ， 我 们 这 里 使 用 GraphX。 


我 们 的 目的 是 了 解 文献 引用 图 谱 的 概况 和 特点 。 为 了 实现 这 个 目标 ， 我 们 要 从 多 个 角度 来 
研究 数据 集 ， 这 样 才 能 全 面 了 解数 据 集 。 首 先 ， 我 们 研究 数据 集中 的 主要 主题 和 它们 的 伴 
生 关 系 ， 这 个 分 析 比 较 简 单 ， 不 需要 使 用 GraphX。 然 后 ， 我 们 要 找 出 数据 集中 的 连通 组 
件 (connected component) 。 我 们 能 不 能 沿 着 一 条 引用 路 径 从 一 个 主题 达到 另 一 个 主题 ? 数 
据 实际 上 是 不 是 由 一 系列 独立 的 子 图 组 成 的 ? 这些 都 是 我 们 要 回答 的 问题 。 接 下 来 ， 我 们 
会 继续 讨论 图 的 度 分 布 ， 它 描述 了 主题 的 相关 度 变 化 并 有 助 于 我 们 找到 那些 与 其 他 主题 关 
联 最 多 的 主题 。 最 后 ， 我 们 要 计算 两 个 图 统计 量 : 有 聚 类 系数 和 平均 路 径 长 度 ， 它 们 的 复杂 
度 稍微 高 一 点 儿 。 这 些 统计 量 有 助 于 我 们 了 解 文献 引用 图 谱 与 万 维 网 和 Facebook 社交 网 络 
等 实际 图 谱 的 相似 程度 。 


7.2 ”获取 数据 


我 们 可 以 从 NIH 的 FTP 服务 器 上 下 载 文 献 引 用 数据 的 一 个 样本 ， 脚 本 如 下 : 


$ mkdir medline_data 
$ cd medline data 
$ wget ftp://ftp.nlm.nih.gov/nlmdata/sample/medline/*.gz 


解压 并 检查 数据 ， 然 后 将 数据 上 传 到 HDFS 上 ， 代 码 如 下 : 


$ gunzip *.gz 
$ ls -Ltr 


total 843232 


-rw-r--r-- 1 spark spark 162130087 Dec 17 2013 medsamp2014h.xml 
-rw-r--r-- 1 spark spark 146357238 Dec 17 2013 medsamp2014g .xmL 
-rw-r--r-- 1 spark spark 132427298 Dec 17 2013 medsamp2014f.xml 
-rw-r--r-- 1 spark spark 102401546 Dec 17 2013 medsamp2014e.xml 
-rw-r--r-- 1 spark spark 102715615 Dec 17 2013 medsamp2014d .xmL 
-rw-r--r-- 1 spark spark 89355057 Dec 17 2013 medsamp2014c.xml 
-rw-r--r-- 1 spark spark 69209079 Dec 17 2013 medsamp2014b.xml 
-rw-r--r-- 1 spark spark 58856903 Dec 17 2013 medsamp2014a.xml 


样本 数据 格式 为 XML， 解 压 之 后 大 约 有 600 MB。 样 本 文件 中 每 个 条 目 是 一 条 
MedlineCitation 类 型 的 记录 ， 该 记录 包含 文章 在 生物 医学 杂志 上 的 发 表 信 息 ， 包 括 厅 
志 名 称 、 发 行 期 号 、 发 行 日 期 、 作 者 姓名 、 摘 要 、MeSH 关键 字 集 合 。 此 外 ，MeSH 关 
键 字 还 有 一 个 属性 ， 用 于 表示 该 关键 字 所 指 概念 是 不 是 文章 主要 的 主题 。 我 们 来 看 看 
medsamp2014a.xml 文件 中 第 一 个 引用 记录 : 
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<MedlineCitation Owner="PIP" Status="MEDLINE"> 
<PMID Version="1">12255379</PMID> 
<DateCreated> 

<Year>1980</Year> 

<Month>01</Month> 

<Day>03</Day> 
</DateCreated> 


<MeshHeadingList> 


<MeshHeading> 

<DescriptorName MajorTopicYN="N">Intelligence</DescriptorName> 
</MeshHeading> 
<MeshHeading> 

<DescriptorName MajorTopicYN="Y">Maternal-Fetal Exchange</DescriptorName> 
</MeshHeading> 


</MeshHeadingList> 

</MedlineCitation> 
前 一 章 在 对 维基 百科 文章 进行 潜在 语义 分 析 时 ， 我 们 主要 关心 XML 记录 中 的 非 结构 化 文 
本 。 但 对 本 章 中 伴生 关系 的 分 析 ， 我 们 直接 通过 解析 XML 结构 并 从 DescriptorName 标签 


中 提取 值 。 幸 运 的 是 ，Scala 提供 了 一 个 非常 优秀 的 工具 scala-xml， 可 以 直接 用 它 来 解析 
和 查询 XML 文档 。 


先 将 引用 数据 加 载 到 HDFS 上 : 


$ hadoop fs -mkdir medline 
$ hadoop fs -put *.xml medline 


现在 启动 Spark shell。 本 章 要 用 到 第 6 章 解析 XML 格式 数据 的 代码 。 为 了 将 这 些 代码 编 
译 成 一 个 可 供 引 用 的 JAR， 需 要 先 到 Git 资料 库 上 的 common/ 目录 下 并 执行 Maven 构建 : 


$ cd common/ 
$ mvn package 
$ spark-shell --jars target/common-1.0.0.jar 


为 了 把 XML 格式 的 MEDLINE 数据 读 到 Spark shell 中 ， 我 们 需要 实现 一 个 的 函数 ， 代 码 
如 下 : 


import com.cloudera.datascience.common.XmlInputFormat 
import org.apache.spark.SparkContext 

import org.apache.hadoop.io.{Text, LongWritable} 
import org.apache.hadoop.conf.Configuration 


def loadMedline(sc: SparkContext, path: String) = { 
@transient val conf = new Configuration() 
conf.set(XmlInputFormat.START_TAG_KEY, "<MedlineCitation ") 
conf.set(XmlInputFormat.END_TAG_KEY, "</MedlineCitation>") 
val in = sc.newAPIHadoopFile(path, classOf[XmlInputFormat], 
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CLassof[LongwritabLe]，cLassof[Text]，conf) 
tin.map(Line => line. 2.toString) 


val medline raw = loadMedline(sc, "medline") 


由 于 不 同 记 录 中 MedlineCitation 开始 标签 中 属性 值 可 能 不 同 ， 所 以 我 们 将 配置 参数 
START_TAG_KEY 的 值 设 为 MedlineCitation 开始 标签 的 前 级 。XmlInputFormat 会 在 返回 的 记 
录 值 中 包含 这 些 不 同 的 属性 。 


7.3 用 Scala XML 工具 解析 XML 文档 


Scala 和 XML 之 间 有 一 段 渊源 比较 有 意思 。 从 1.2 版 本 开始 Scala 就 把 XML 作为 它 的 一 级 
数据 类 型 ， 所 以 下 面 这 段 代码 的 句法 是 没 问题 的 : 


import scala.xml._ 


val cit = <MedlineCitation>data</MedlineCitation> 


这 种 对 XML 字面 量 的 支持 在 主流 编程 语言 中 不 多 见 ， 特 别 是 像 JSON 这 类 序列 化 格式 被 
广泛 采用 之 后 。 对 此 ，Martin Odersky 在 2012 年 Scala 语言 邮件 列表 中 作出 如 下 评论 : 


[XML 字面 量 ] 在 当时 是 个 不 错 的 特性 ， 但 现在 看 起 来 它 有 点 儿 不 合 时 宜 。 相 信 
有 了 新 的 字符 串 插 入 方案 后 ， 就 可 以 把 所 有 XML 处 理 代码 都 放 到 库 里 了 ， 这 应 
该 是 个 不 小 的 进步 。 


从 Scala 2.11 开始 ，scala.xml 包 不 再 包含 在 Scala 核心 库 之 中 。 在 将 Scala 升级 到 Scala 
2.11 0 如 果 需 要 在 项 目 中 使 用 Scala XML 工具 包 ， 我 们 必须 显 式 地 将 scala-xml 依赖 
含 进来 。 


记 住 上 述 注意 点 之 后 ， 我 们 必须 承认 Scala 对 XML 文档 的 解析 和 查询 真 的 非常 优秀 ， 从 


MEDLINE 引用 数据 中 提取 信息 时 我 们 要 反复 利用 这 种 优点 。 现 在 就 开始 把 第 一 条 未 解析 
的 引用 记录 提取 到 我 们 的 Spark shell 中 吧 : 


val raw_xml = medline_raw.take(1)(0) 
val elem = XML.loadString(raw_xml) 


> 六 


量 elem 是 scala.xml.Elenm 类 的 实例 ，Scala 用 scala.xml.Elenm 类 表示 XML 文档 中 的 一 
个 节点 ， 该 类 内 置 了 查询 节点 信息 和 节点 内 容 的 函数 ， 比 如 : 


elem.label 
elem.attributes 


它 也 提供 了 查找 给 定 XML 节点 子 节 点 的 几 个 运算 符 ， 其 中 第 一 个 就 是 \， 用 于 根据 名 称 
查询 节点 的 直接 子 节 点 
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elem \ "MeshHeadingList" 


NodeSeq(<MeshHeadingList> 

<MeshHeading> 

<DescriptorName MajorTopicYN="N">Behavior</DescriptorName> 
</MeshHeading> 


运算 符 \ 只 对 点 的 直接 子 节点 有 效 ， ed elen \、"MeshHeading"， 结 果 会 是 一 
空 的 Nodeseq。 为 了 得 到 给 定 节点 的 间接 子 节 点 ， 我 们 要 用 运算 符 \\: 
eLem \\ "MeshHeading" 
Nodeseq( <MeshHeading> 


<DescriptorName MajorTopicYN="N">Behavior</DescriptorName> 
</MeshHeading>， 


可 以 用 \\ 运算 符 直 接 得 到 DescriptorName 条 目 ， 并 通过 在 每 个 NodeSeq 内 部 元 素 上 调用 
text 函数 把 每 个 节点 内 的 MeSH 标签 提取 出 来 : 


(elem \\ "DescriptorName").map(_.text) 


List(Behavior, Congenital Abnormalities, ... 


最 后 请 注意 ， 每 个 DescriptorName 条 目 都 有 一 个 MajorTopicYN 属性 ， 它 表示 该 MeSH 标 
签 是 否 是 所 引用 的 文章 的 主要 主题 。 只 要 我 们 在 XML 标签 属性 前 加 上 “@” 符 号 ， 就 可 
以 用 \ 和 \\ 运算 符 得 到 XML 标签 属性 的 值 。 用 这 个 特性 我 们 可 以 建立 一 个 过 滤器 ， 只 返 
回 文章 的 主要 MeSH 标签 的 名 称 ， 代 码 如 下 : 


def majorTopics(elem: Elem): Seq[String] = { 
val dn = elem \\ "DescriptorName" 
val mt = dn.filter(n => (n \ "@MajorTopicYyN").text == "Y") 
mt.map(n => n.text) 

} 


majorTopics(elem) 


现在 我 们 的 XML 解析 代码 可 以 在 本 地 运行 了 ， 我 们 可 以 用 它 解析 RDD 中 每 条 引用 记录 的 
MeSH 编码 并 将 结果 缓存 起 来 : 


val mxml: RDD[ELem] = medLine_raw.map(XML.LoadString) 
val medline: RDD[Seq[String]] = mxml.map(majorTopics).cache() 
medline. take(1)(0) 


7.4 分 析 MeSH 主 要 主题 及 其 伴生 关系 


在 将 MEDLINE 引用 记录 中 所 需 的 MeSH 标签 提取 出 来 之 后 ， 我 们 需要 知道 数据 集中 标签 
的 总 体 分 布 情况 。 为 此 我 们 需要 计算 一 些 基 本 统计 量 ， 比如 记录 条 数 和 主要 MeSH 主题 出 
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现 频率 的 直方 图 ， 代 码 如 下 : 


medline.count() 

val topics: RDD[String] = medline.flatMap(mesh => mesh) 
val topicCounts = topics.countByValue() 
topicCounts. size 

val tcSeq = topicCounts.toSeq 
tcSeq.sortBy(_._2).reverse.take(10).foreach(println) 


(Research,5591) 

(Child,2235) 

(Infant,1388) 

(Toxicology,1251) 

(Pharmacology ,1242) 

(Rats,1067) 

(Adolescent,1025) 

(Surgical Procedures, Operative,1011) 
(Pregnancy ,996) 

(Pathology ,967) 


出 现 最 频繁 的 主要 主题 是 那些 最 常见 的 主题 ， 比 如 超级 常见 的 “Research” 以 及 下 


肖 微 弱 


一 点 儿 的 “Toxicology”“Pharmacology” 和 “Pathology”， 这 一 点 在 我 们 的 意料 之 中 。 常 
见 主 题 列表 中 也 包含 了 不 同 病 例 群体 ， 比 如 “Child”“Infant”“Rats” 或 更 让 人 讨厌 的 
“Adolescent" 。 幸 运 的 是 ， 我 们 的 数据 集中 有 超过 13 000 个 不 同 的 主要 主题 ， 考 虑 到 最 常 
出 现 的 主题 只 出 现在 了 一 小 部 分 (5591/240 000， 约 为 2.3%) 文档 中 ， 我 们 估计 包含 某 个 
主题 的 文档 的 个 数 的 总 体 分 布 呈现 长 尾 形 态 。 为 了 验证 我 们 的 估计 ， 我 们 对 topicCounts 


这 个 map 中 出 现 次 数 相同 的 主题 的 个 数 进 行 统计 : 


val vaLueDist = topicCounts.groupBy(_._2).mapValues(_.size) 
valueDist. toSeq. sorted.take(10).foreach(println) 
(1,2599) 

(2,1398) 

(3,935) 

(4,761) 

(5,592) 

(6,461) 

(7,413) 

(8,394) 

(9,345) 

(10,297) 


当然 我 们 主要 还 是 关心 MeSH 的 伴生 主题 。MEDLINE 数据 集中 每 一 项 都 是 一 个 字符 串 列 


表 ， 代 表 每 个 引用 记录 中 提 及 的 主题 名 称 。 要 得 到 伴生 主题 ， 我 们 要 为 这 些 字符 串 列 表 生 
成 一 个 二 元 组 集合 。 幸 运 的 是 ，Scala 的 集合 工具 包 有 一 个 combinations 方法 ， 利 用 这 个 
方法 产生 这 些 子 列表 极其 容易 。combinations 方法 返回 的 是 一 个 Iterator， 因 此 并 不 需要 


同时 把 所 有 组 合 都 放 在 内 存 里 。 
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val list = List(1, 2, 3) 
val combs = list.combinations(2) 
combs.foreach(println) 


当 用 这 个 函数 来 生成 子 列表 时 ， 我 们 要 注意 所 有 的 列表 要 按照 同样 的 方式 进行 排序 ， 以 便 


之 后 使 用 Spark 对 它们 进行 汇总 。 这 是 因为 combinations 函数 返回 的 列表 取决 于 输入 元 素 
的 顺序 ， 而 元 素 相同 但 顺序 不 同 的 两 个 列表 是 不 相等 的 。 


val combs = list.reverse.combinations(2) 
combs.foreach(println) 
List(3, 2) == List(2, 3) 


因此 如 果 我 们 要 为 每 条 引用 记录 生成 二 元 子 列表 集合 ， 在 调用 combinations 之 前 要 确保 主 
题 列 表 是 排 好 序 的 : 


val topicpairs = medLine.fLatMap(t => t.sorted.combinations(2)) 
val cooccurs = topicpairs.map(p => (p, 1)).reduceByKey(_+_) 
cooccurs.cache() 

cooccurs.count() 


由 于 我 们 的 数据 中 有 13 034 个 主题 ， 总 共 可 能 有 13 034*13 033/2 = 84 936 061 个 无 序 的 伴 
生 二 元 组 。 然 而 ， 伴 生 组 的 计数 结果 显示 数据 集中 实际 上 只 有 259 920 组 ， 只 占 可 能 数量 
的 很 小 一 部 分 。 如 果 考 察 一 下 数据 中 最 常 出 现 的 伴生 二 元 组 ， 我 们 可 以 得 到 如 下 结果 : 


val ord = Ordering.by[(Seq[String], Int), Int](_._2) 
cooccurs.top(10)(ord).foreach(println) 


(List(Child, Infant),1097) 

(List(Rats, Research),995) 
(List(Pharmacology, Research),895) 
(List(Rabbits, Research),581) 
(List(Adolescent, Child),544) 
(List(Mice, Research),505) 

(List(Dogs, Research),469) 
(List(Research, Toxicology),438) 
(List(Biography as Topic, History),435) 
(List(Metabolism, Research),414) 


最 常 出 现 的 伴生 二 元 组 也 没有 什么 特别 之 处 ， 如 果 我 们 根据 最 常 出 现 的 主要 主题 来 猜测 ， 
结果 也 差不多 。 出 现 最 多 的 伴生 二 元 组 比如 (Child，Infant) 和 (Rats， Research) 不 过 是 
出 现 最 多 的 主题 个 体 之 间 的 两 两 组 合 。 这 一 点 不 足 为 奇 ， 除 了 说 明 数 据 中 存在 伴生 二 元 组 
之 外 也 没有 提供 什么 额外 信息 。 


7.5 用 GraphX 来 建立 一 个 伴生 网 络 


正如 在 前 一 节 中 所 看 到 的 那样 ， 在 研究 伴生 网 络 时 标准 的 数据 统计 工具 不 能 提供 额外 有 价 
值 的 信息 。 我 们 能 计算 的 总 体 概要 统计 量 ， 比 如 原始 记录 条 数 等 ， 无 法 让 我 们 了 解 网 络 中 


A 
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关系 的 总 体 结构 。 并 且 运 用 这 些 工具 得 到 的 处 于 分 布 两 端的 伴生 二 元 组 常常 是 我 们 不 太 感 


兴趣 的 。 


我 们 真正 想 要 做 的 是 把 伴生 网 络 作为 网 络 来 分 析 : 把 主题 当 作 图 的 顶点 ， 把 连接 两 个 主题 
的 引用 记录 看 成 两 个 相应 顶点 之 间 的 边 。 这 样 我 们 就 可 以 计算 以 网 络 为 中 心 的 统计 量 。 这 


些 网 络 统计 量 能 帮助 我 们 到 


出 这 些 离 群 点 之 后 我 们 才 需 要 对 其 进行 进一步 研究 。 


我 们 也 可 以 利用 伴生 网 络 找 出 需要 进一步 研究 的 那些 有 意思 的 相互 关系 。 图 7-1 是 抗 癌 药 
物 和 病人 服用 药物 所 产生 的 不 良 反 应 的 部 分 伴生 关系 图 。 我 们 可 以 利用 从 这 些 图 中 得 到 的 
信息 设计 临床 实验 并 研究 药物 和 不 良 反应 的 相互 关系 。 


E 解 网 络 的 总 体 结构 并 识别 出 那些 有 意思 的 局 部 离 群 顶点 ， 识 别 
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7-1: 抗 癌 药 物 和 相关 病人 不 良 反 应 组 的 部 分 合 伴生 关系 图 


MLlib 对 利用 Spark 建立 机 器 学 习 模 型 提供 了 一 组 模式 和 算法 。 与 之 类 似 ， 设 计 GraphX 这 


个 Spark 工具 包 是 为 了 帮助 我 们 利用 图 论 的 语言 和 工具 分 析 各 种 网 络 。 由 于 GraphX 构建 
在 Spark 之 上 ， 它 继承 了 Spark 在 可 扩展 性 方面 的 所 有 特性 。 这 就 意味 着 可 以 利用 GraphX 
图 进行 分 析 ， 这 些 分 析 任 务 可 以 在 多 个 机 器 上 分 布 式 执行 。GraphX 也 


对 规模 极其 庞大 的 


可 以 与 Spark 平台 上 的 其 他 组 件 很 好 地 集成 在 一 起 ， 这 样 数据 科学 家 就 能 丰 


公 切 换 ， 从 编写 运行 在 RDD 之 上 的 ETL 任务 切换 到 执行 那些 运行 在 图 
然后 再 切 回 到 以 数据 并 行 的 方式 对 图 计算 输出 结果 并 进行 分 析 和 汇总 。 
章 中 看 到 。GraphX 允许 我 们 在 分 析 过 程 中 轻松 引入 图 


才 使 得 GraphX 变 得 如 此 强大 。 


E 各 种 任务 中 轻 


上 的 图 并 行 算 法 ， 
这 一 点 我 们 将 在 本 
计算 方式 ， 正 是 因为 这 种 无 颖 集成 
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GraphX 针对 图 计算 对 RDD 的 实现 进行 了 两 项 特殊 的 优化 。vertexRDD[VD] 是 
RDD[ 《VertexId，VD)] 的 特殊 实现 ， 其 中 VertexID 类 型 是 Long 的 实例 ， 对 每 个 顶点 都 是 
必需 的 。VD 是 顶点 关联 的 任何 类 型 数据 ， 称 为 顶点 属性 (vertex attribute)。EdgeRDD[ED] 
是 RDD[Edge[ED]] 的 特殊 实现 ， 其 中 Edge 是 包含 两 个 vertexId 值 和 一 个 ED 类 型 的 边 属性 
(edge attribute) 。VertexRDD 和 EdgeRDD 在 每 个 数据 分 区 内 部 均 有 用 于 加 快 连接 和 属性 更 新 
的 索引 结构 。 给 定 VertexRDD 及 其 相应 的 EdgeRDD 后 ， 我 们 就 能 建立 一 个 Graph 类 的 实例 ， 
Graph 类 包含 了 许多 图 计算 的 高 效 方法 。 


要 建立 一 个 图 ， 首 先 要 取得 用 作 图 顶点 标识 符 的 Long 型 值 。 由 于 所 有 主题 都 是 用 字符 串 标 
示 的 ， 因 此 我 们 在 创建 伴生 网 络 时 要 处 理 这 个 小 问题 。 我 们 需要 有 一 种 方式 将 每 个 主题 字 
符 串 转换 为 64 位 的 Long 型 值 ， 而 且 这 种 方式 最 好 能 够 分 布 式 执行 。 这 样 就 能 对 全 部 数据 
进行 快速 处 理 。 


方法 之 一 就 是 用 内 置 的 hashCode 方法 来 对 任意 Scala 对 象 产生 一 个 32 位 整数 。 就 本 章 要 
十 论 的 问题 而 言 ， 我 们 的 图 只 有 13 000 个 顶点 ， 这 种 方法 可 能 行 得 通 。 但 对 于 一 个 有 数 
百 万 其 至 是 数 千 万 顶点 的 图 来 说 ， 发 生 哈 希 冲 突 的 概率 可 能 就 太 高 了 。 因 此 我 们 选用 谷歌 
开发 的 Guava 库 中 的 Hashing 工具 。 利 用 该 工具 ， 可 以 通过 MD5 哈 希 算法 为 每 个 主题 生 
成 一 个 64 位 的 唯一 标识 符 ， 代 码 如 下 : 


二 


import com.google.common.hash.Hashing 


def hashId(str: String) = { 
Hashing.md5().hashSstring(str).asLong() 
} 


在 MEDLINE 数据 上 运行 该 哈 希 函数 可 以 得 到 一 个 RDD[(Long，String)]， 以 它 为 基础 就 可 
以 得 到 伴生 关系 图 的 顶点 集合 。 我 们 还 需要 对 结果 进行 简单 的 校 验 以 确保 每 个 主题 的 哈 希 
标识 符 是 唯一 的 ， 代 码 如 下 : 


val vertices = topics.map(topic => (hashId(topic), topic)) 
val uniqueHashes = vertices.map(_._1).countByValue() 

val uniqueTopics = vertices.map(_._2).countByValue() 
uniqueHashes.size == uniqueTopics.size 


我 们 要 用 前 面 一 市 中 得 到 的 伴生 频率 计数 来 生成 图 的 边 ， 方 法 是 使 用 哈 希 函数 将 每 个 主 
题 的 名 称 映 射 到 相应 的 顶点 也。 在 生成 边 的 时 候 一 个 好 习惯 就 是 要 保证 左边 的 VertexId 
(GraphX 称 为 src) 要 比 右边 的 vertexId (GraphX 称 为 dst) 小 。 虽 然 GraphX 工具 包 中 
大 多 数 算法 都 不 要 求 src 和 dst 之 间 有 大 小 关系 ， 但 确实 有 几 个 算法 存在 这 样 的 要 求 。 
此 最 好 在 一 开始 时 就 保证 大 小 顺序 ， 这 样 的 话 就 再 也 不 用 为 此 操心 了 。 


import org.apache.spark.graphx. 


val edges = cooccurs.map(p => { 
val (topics, cnt)= p 


A 
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val ids = topics.map(hashId).sorted 
Edge(ids(0), ids(1), cnt) 
}) 


把 顶点 和 边 都 准备 好 之 后 就 可 以 创建 craph 实例 了 。 我 们 需要 将 Graph 缓存 起 来 ， 这 样 便 
于 后 续 处 理 时 使 用 ， 代 码 如 下 : 


val topicGraph = Graph(vertices, edges) 
topicGraph.cache() 


用 于 创建 Graph 实例 的 vertices 和 edges 参数 是 普通 的 RDD。 我 们 其 至 没有 为 保证 每 个 
主题 实例 的 唯一 性 而 对 vertices 进行 去 重 。 幸 运 的 是 ，Graph API 帮 我 们 完成 了 这 项 工 
作 ， 它 会 将 我 们 输入 的 RDD 转换 成 一 个 VertexRDD 和 一 个 EdgeRDD， 这 样 顶点 计数 就 是 唯 
一 的 了 : 


vertices.count() 
280823 
topicGraph.vertices.count() 


13034 


注意 ， 如 果 某 两 个 顶点 二 元 组 在 EdgeRDD 中 重复 出 现 ，Graph API 不 会 对 其 进行 去 重 处 理 ， 
这 样 GraphX 就 可 以 创建 多 图 (multigraph) ， 也 就 是 相同 的 顶点 之 间 可 以 用 多 条 不 同 值 的 
边 。 如 果 图 顶点 代表 了 有 许多 丰富 涵义 的 对 象 ， 多 图 往往 是 很 有 用 的 。 比 如 人 或 公司 ， 他 
们 之 间 就 可 能 有 许多 不 同 的 关系 (比如 朋友 、 家 庭 成 员 、 顾 客 、 合 作 伙 伴 等 )。 多 图 也 可 
以 让 我 们 根据 实际 情况 使 用 有 向 边 或 无 向 边 。 


7.6 理解 网 络 结构 


研究 表 的 内 容 时 我 们 可 以 快速 算出 列 上 的 很 多 概要 统计 量 ， 这 样 就 能 大 概 知道 数据 的 结构 
并 可 以 对 问题 域 作 进 一 步 研 究 。 研 究 图 时 ， 这 个 原则 同样 适用 ， 只 不 过 此 时 我 们 感 兴趣 的 
概要 统计 量 稍 有 不 同 。Graph 类 内 置 了 计算 这 些 概要 统计 量 的 方法 ， 结 合 其 他 常规 的 Spark 
RDD API， 我 们 可 以 很 轻松 地 了 解 到 图 的 结构 ， 这 样 就 能 为 研究 图 提供 方向 。 


7.6.1 连通 组 件 

对 于 图 来 说 ， 我 们 想 了 解 的 一 个 基本 情况 就 是 它 是 否 是 连通 图 。 对 于 连通 图 中 的 任意 两 
个 顶点 ， 它 们 之 间 都 存在 一 条 路 径 到 达 对 方 ， 路 径 就 是 连接 两 个 顶点 的 一 系列 边 。 如 果 
图 是 非 连 通 的 ， 那 么 我 们 可 以 将 图 划分 成 一 组 更 小 的 子 图 ， 这 样 就 可 以 分 别 对 每 个 子 图 
进行 研究 。 


连通 性 是 图 的 基本 属性 ， 所 以 很 自然 地 GraphX 内 置 了 找 出 图 的 连通 组 件 的 方法 。 如 果 在 
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图 上 调用 过 connectedComponents 方法 ， 你 就 会 注意 到 Spark 会 生成 许多 作业 ， 等 作业 结束 
后 ， 就 会 得 到 计算 的 结果 : 


val connectedComponentGraph: Graph[VertexId，Int] = 
topicGraph.connectedComponents() 


请 注意 connectedComponents 方法 返回 对 象 的 类 型 ， 也 是 Graph 类 型 实例 ， 但 顶点 属性 的 
类 型 是 vertexId， 它 是 每 个 顶点 所 属 连通 组 件 的 唯一 标识 符 。 想 得 到 连通 组 件 的 个 数 和 大 
小 ， 我 们 可 以 在 VertexRDD 中 的 每 个 顶点 的 vertexId 上 调用 countByValue 这 个 可 靠 的 方 
法 。 下 面 我 们 来 定义 一 个 列 出 所 有 连通 组 件 并 按 大 小 进行 排序 的 方法 : 


def sortedConnectedComponents( 
connectedComponents: Graph[VertexId, _]) 
: Seq[(VertexId, Long)] = { 
val componentCounts = connectedComponents.vertices.map(_._2). 
countByValue 
componentCounts. toSeq.sortBy(_._2).reverse 


} 


我 们 先 来 看 看 有 多 少 个 连通 组 件 ， 然 后 进一步 看 一 下 最 大 的 10 个 连通 组 件 ， 详 细 情 况 
如 下 : 


val componentCounts = sortedConnectedComponents( 
connectedComponentGraph) 
componentCounts. size 


1039 
componentCounts.take(10)foreach(println) 


-9222594773437155629,11915) 
-6468702387578666337 ,4) 
-7038642868304457401 ,3) 
-7926343550108072887 ,3) 
-5914927920861094734,3) 
-4899133687675445365 ,3) 
-9022462685920786023 ,3) 
-7462290111155674971 ,3) 
-5504525564549659185 ,3) 
-7557628715678213859 ,3) 


一 一 一 一 一 一 一 一 一 一 


最 大 的 连通 组 件 包 含 了 超过 90% 的 顶点 ， 第 二 大 的 连通 组 件 包含 了 4%， 只 占 图 的 非常 小 
的 一 部 分 。 为 了 搞 清楚 为 什么 这 些小 组 件 没 有 和 最 大 的 组 件 连 通 ， 需 要 看 一 下 它们 的 主 
题 。 为 了 查看 小 组 件 相关 的 主题 的 名 称 ， 需 要 将 连通 组 件 图 对 应 的 VertexRDD 和 原始 概念 
图 执行 join 操作 。VertexRDD 提供 了 innerJoin 转换 ， 它 利用 了 GraphX 的 内 部 数据 结构 ， 
性 能 比 常规 Spark 的 join 转换 要 好 得 多 。innerJoin 方法 需要 我 们 提供 一 个 函数 ， 该 函数 
的 输入 为 VertexID 和 两 个 VertexRDD 的 内 部 数据 ， 函 数 的 返回 值 是 一 个 新 的 VertexRDD， 
它 是 innerJoin 方法 结果 。 对 应 到 我 们 这 里 的 情况 ， 我 们 想 要 知道 每 个 连通 组 件 的 概念 的 


120 | 第 7 章 


名 称 ， 因 此 需要 返回 一 个 包含 概念 名 称 和 组 件 DD 的 二 元 组 : 


val nameCID = topicGraph.vertices. 
innerJoin(connectedComponentGraph.vertices) { 
(topicId, name, componentId) => (name, componentId) 


} 
我 们 来 看 一 下 第 二 大 连通 组 件 的 主题 名 称 : 


val cl = nameCID.filter(x => x._ 2. 2 == topComponentCounts(1)._2) 
cl.collect().foreach(x => println(x._2._1)) 


Reverse Transcriptase Inhibitors 
Zidovudine 

Anti-HIV Agents 

Nevirapine 


在 Google 中 搜索 一 下 Zidovudine 和 Nevirapine， 可 以 找到 维基 百科 上 的 Nevirapine 条 目 ， 
这 个 条 目 指出 它们 是 治疗 HIV-1 这 种 最 严重 的 HIV 时 结合 使 用 的 两 种 药物 。 


很 奇怪 这 个 子 图 并 没有 与 最 大 子 图 中 的 其 他 与 HIV 或 AIDS 相关 的 主题 连通 。 我 们 来 看 一 
下 金 体 数 据 中 提 及 HIV 的 主题 的 分 布 ， 详 细 情 况 如 下 : 


val hiv = topics.filter(_.contains("HIV")).countByValue() 
hiv.foreach(println) 


(HIV Seronegativity,10) 

(HIV Long Terminal Repeat,2) 
(HIV Long-Term Survivors,1) 
(HIV Integrase Inhibitors,1) 
(HIV Infections,104) 
(HIV-2,2) 

(HIV Seroprevalence,6) 
(Anti-HIV Agents,1) 
(HIV-1,72) 

(HIV,16) 

(HIV Seropositivity,41) 


这 个 图 中 独立 的 子 条 目 看 起 来 是 人 为 造成 的 ， 这 可 能 是 对 文献 索引 中 某 个 引用 条 目 ， 比 如 
对 HIV-1， 有 人 故意 不 使 用 那些 重要 主题 的 标签 ， 这样 原本 可 以 和 那个 最 大 子 图 连通 的 论 
文 就 没 法 连通 了 。 这 里 我 们 学 到 的 一 个 新 知识 就 是 随 着 我 们 不 断 的 加 入 论文 引用 数据 ， 主 
题 伴生 网 络 就 非常 可 能 变 成 全 连通 图 ， 并 且 没 有 什么 重要 理由 让 我 们 相信 这 个 伴生 网 络 会 
分 解 成 独立 的 子 图 。 


底层 实现 上 ， 为 了 找 出 每 个 顶点 所 属 的 连通 组 件 ，connectedComponents 方法 利用 VertexId 
作为 顶点 唯一 标识 符 在 图 上 执行 一 些 列 式 友 代 计算 。 在 计算 的 每 个 阶段 ， 每 个 顶点 把 它 
所 收 到 的 最 小 VertexID 广播 到 相 邻 节点 。 第 一 次 远 代 时 ， 这 个 最 小 vertexID 就 是 顶点 自 
身 的 ID， 在 随后 的 友人 代 中 该 最 小 vertexID 通常 会 被 更 新 掉 。 每 个 顶点 都 记录 它 所 收 到 的 
vertexID 的 最 小 值 ， 如 果 在 某 一 次 伙 代 中 ， 所 有 顶点 的 最 小 vertexID 都 没有 变化 ， 那 么 连 
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通 组 件 的 计算 就 完成 了 ， 每 个 顶点 都 将 分 配给 该 顶点 的 最 小 VertexID 所 代表 的 组 件 。 在 图 
上 的 这 种 迭代 式 计 算 非 常 普遍 ， 本 章 后 面 将 介绍 怎样 使 用 这 种 迭代 模式 来 计算 其 他 图 结构 
引 标 。 


7.6.2” 度 的 分 布 

连通 图 的 结构 可 能 有 很 多 种 。 比 如 ， 它 可 能 是 一 个 节点 和 所 有 其 他 节点 相连 ， 而 其 他 节点 
之 间 则 不 直接 相连 。 如 果 我 们 去 掉 这 个 中 心 节 点 ， 图 就 散落 成 若干 分 离 的 顶点 。 图 的 结构 
也 可 能 是 每 个 顶点 都 只 和 两 个 其 他 顶点 相连 ， 整 个 组 件 形成 一 个 巨大 的 环 。 


图 7-2 说 明了 同样 的 连通 图 ， 它 们 的 度 分 布 可 能 过 异 。 


图 7-2: 连通 图 的 度 分 布 


为 了 更 多 了 解 图 的 结构 信息 ， 我 们 需要 知道 每 个 顶点 的 度 ， 也 就 是 每 个 顶点 所 属 边 的 条 
数 。 对 于 一 个 无 环 图 (如 果 边 的 两 个 顶点 相同 就 形成 环 ) ， 因 为 每 条 边 都 包含 两 个 不 同 的 
顶点 ， 所 以 全 体 顶 点 的 度 之 和 等 于 边 的 条 数 的 两 倍 。 

GraphX 中 我 们 可 以 通过 在 Graph 对 象 上 调用 degrees 方法 得 到 每 个 顶点 的 度 。degrees 方 


法 返回 一 个 整数 的 VertexRDD， 其 中 每 个 整数 代表 一 个 顶点 的 度 。 现 在 我 们 来 为 概念 网 络 
计算 度 的 分 布 和 一 些 基 本 的 概要 统计 量 ， 代 码 如 下 : 


val degrees: VertexRDD[Int] = topicGraph.degrees.cache() 
degrees.map(_._2).stats() 


(count: 12065, mean: 43.09, 
stdev: 97.63, max: 3753.0, min: 1.0) 


度 分 布 中 有 几 个 点 要 注意 。 第 一 ，degrees RDD 中 条 目 个 数 比 概念 图 的 顶点 数 少 。 概 念 图 
有 13 034 个 顶点 而 degrees RDD 只 有 12 065 个 条 目 。 有 些 顶 点 没有 连接 边 。 这 可 能 是 由 
于 MEDLINE 数据 中 某 些 引用 只 有 一 个 主要 主题 词 ， 因 此 有 些 主题 并 不 和 其 他 任何 主题 同 
时 出 现 。 可 以 通过 重新 检查 原始 RDD medline 来 确认 我 们 的 推测 ， 代 码 如 下 : 
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val sing = medline.filter(x => x.size == 1) 
sing.count() 


48611 
val singTopic = sing.flatMap(topic => topic).distinct() 


singTopic.count() 


8084 


有 8084 个 不 同 主题 词 单独 出 现在 MEDLINE 数据 库 中 的 48 611 篇 文章 中 。 现 在 我 们 将 已 
经 在 topicpPairs RDD 出 现 过 的 这 些 主题 词 去 掉 ， 代 码 如 下 : 


val topic2 = topicpairs.flatMap(p => p) 
singTopic.subtract(topic2).count() 


969 
这 会 过 滤 掉 MEDLINE 数据 库 文 档 中 单独 出 现 的 969 个 主题 词 。13 034 减 去 969 等 于 
12 065， 正 好 是 degrees RDD 中 的 条 目 数 。 


其 次 ， 请 注意 虽然 度 的 均值 较 小 ， 意 味 着 普通 顶点 只 连接 到 少数 几 个 其 他 节点 ， 但 是 度 的 
最 大 值 却 表明 至 少 有 一 个 节点 是 高 度 连接 的 ， 它 几乎 和 图 中 三 分 之 一 的 顶点 都 是 连接 的 。 


我 们 来 进一步 看 一 下 那些 度 很 高 的 顶点 所 对 应 的 概念 ， 有 具体 方法 是 使 用 GraphX 的 
innerJoin 在 degrees VertexRDD 和 概念 图 中 的 顶点 上 执行 join 运算 。 这 里 我 们 还 要 提供 
一 个 关联 函数 将 概念 名 称 和 顶点 的 度 组 织 成 一 个 二 元 组 ， 请 记 住 innerJoin 方法 只 返回 在 
两 个 VertexRDD 中 均 出 现 的 顶点 ， 因 此 那些 没有 与 其 他 概念 同时 出 现 的 概念 将 被 过 滤 掉 。 
现在 我 们 要 编写 一 个 函数 用 于 查找 那些 度 最 高 的 顶点 的 概念 名 称 ， 代 码 如 下 : 


def topNamesAndDegrees(degrees: VertexRDD[InNt], 
topicGraph: Graph[String, Int]): Array[(String, Int)] = { 
val namesAndDegrees = degrees.innerJoin(topicGraph.vertices) { 
(topicId, degree, name) => (name, degree) 


val ord = Ordering.by[(String, Int), Int](_._2) 
namesAndDegrees.map(_._2).top(10)(ord) 
3 


如 果 我 们 打印 出 namesAndDegrees VertexRDD 中 度数 最 高 的 10 个 顶点 ， 会 得 到 如 下 结果 : 


topNamesAndDegrees(degrees, topicGraph).foreach(println) 


(Research,3753) 
(Child,2364) 
(Toxicology,2019) 
(Pharmacology ,1891) 
(Adolescent,1884) 
(Pathology ,1781) 
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(Rats ,1573) 
(Infant,1568) 
(Geriatrics,1546) 
(Pregnancy ,1431) 


这 次 分 析 中 大 部 分 度数 较 高 的 顶点 与 前 文 讨 论 过 的 那些 常见 概念 并 没有 什么 不 同 ， 这 一 点 
在 我 们 的 意料 之 中 。 下 一 节 我 们 将 会 使 用 GraphX API 提供 的 新 功能 和 一 些 经 典 的 统计 量 
把 那些 没有 什么 意义 的 伴生 二 元 组 从 图 中 过 滤 掉 。 


7.7 ”过 滤 噪 声 边 


在 当前 的 伴生 图 中 ， 边 的 权重 是 基于 一 对 概念 同时 出 现在 一 篇 论文 中 的 频率 来 计算 的 。 这 种 
简单 的 权重 机 制 的 问题 在 于 ， 它 并 没有 对 一 对 概念 同时 出 现 的 原因 加 以 区 分 ， 有 时 一 对 概念 
同时 出 现 是 因为 它们 具有 一 种 有 意义 的 语义 关系 ， 但 有 时 一 对 概念 同时 出 现 只 是 因为 它们 都 
频繁 地 出 现在 所 有 文档 中 ， 同 时 出 现 只 是 碰巧 而 已 。 我 们 需要 使 用 一 种 新 的 权重 机 制 ， 在 给 
定 概念 在 数据 中 的 总 体 频繁 度 的 情况 下 ， 它 需要 考虑 给 定 的 两 个 概念 对 于 一 个 文档 的 “ 意 
义 ” 或 “新 颖 度 "。 我 们 将 使 用 皮尔 逊 卡 方 测试 (Pearson's chi-squared test) 来 严格 计算 这 种 
“意义 ”， 也 就 是 说 ， 我 们 要 测试 一 个 概念 的 出 现 与 其 他 概念 的 出 现 是 否 是 独立 的 。 


对 任何 概念 对 A 和 B， 我 们 可 以 建立 一 个 2x2 的 相关 表 ， 它 包含 了 这 两 个 概念 同时 出 现 
在 MEDLINE 文档 中 的 次 数 。 


YesB NoB B Total 
Yes A 人 YN YA 
No A NY NN NA 
B Total YB NB 工 


该 表 中 YY、YN、NY 和 NN 代表 概念 A 和 B 在 文档 中 出 现 / 没 出 现 的 原始 次 数 。YA 和 
NA 是 概念 A 的 按 行 合 计 的 出 现 次 数 ，YB 和 NB 是 概念 B 按 列 合 计 的 出 现 次 数 ， 值 工 则 
是 文档 的 总 数 。 


卡 方 测 试 时 ， 我 们 可 以 把 YY、YN、NY 和 NN 看 成 某 个 未 知 分 布 的 观测 ， 可 以 根据 这 些 
值 计算 卡 方 统计 量 : 


TN TY ENY) 
YA* NA* YB* NB 


如 果 样 本 实际 上 是 独立 的 ， 我 们 期 望 该 统计 量 服从 适当 自由 度 的 卡 方 分 布 。 假 定 + 和 c 是 
待 比 较 的 两 个 随机 变量 的 基数 ， 则 自由 度 为 (x - 1D)(c - 1) = 1。 卡 方 统计 量 大 则 表明 随机 变 
量 相互 独立 的 可 能 性 小 ， 因 此 两 个 概念 同时 出 现 是 有 意义 的 。 更 具体 地 讲 ， 自 由 度 为 1 的 
卡 方 分 布 的 CDF (累积 分 布 图 数 ) 给 出 一 个 p-value， 它 是 我 们 拒绝 变量 是 独立 的 这 个 备 
择 假设 的 置信 水 平 。 
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本 节 将 使 用 GraphX 来 计算 伴生 图 中 每 个 概念 对 的 卡 方 统计 量 。 


7.7.1 处理 EdgeTriplet 
求 卡 方 统计 量 时 最 简单 的 部 分 就 是 计算 T， 也 就 是 需要 考虑 的 文档 的 总 个 数 。 只 要 简单 数 
一 下 medline RDD 中 的 条 目 个 数 就 可 以 轻松 地 得 到 这 个 T， 代 码 如 下 : 


val T = medline.count() 


计算 每 个 概念 在 多 少 篇 文档 中 出 现 也 相对 简单 ， 本 章 前 面 建立 topicCounts 这 个 map 时 已 
经 讨论 过 ， 但 我 们 现在 需要 将 其 表示 为 集群 上 的 一 个 RDD: 


val topicCountsRdd = topics.map(x => (hashId(x), 1)).reduceByKey(_+_) 


有 了 这 个 表示 主题 词 出 现 次 数 的 vertexRDD， 就 可 以 把 它 作 为 顶点 集合 ， 再 加 上 已 有 的 
edges RDD 一 起 用 来 创建 一 个 新 图 : 


val topicCountGraph = Graph(topicCountsRdd, topicGraph.edges) 


现在 我 们 拥有 计算 toptcCountGraph 中 每 条 边 的 卡 方 统 计量 所 需 的 所 有 信息 。 计 算 卡 方 统 
计量 ， 需 要 组 合 顶 点 数据 (比如 每 个 概念 在 一 个 文档 中 出 现 的 次 数 ) 和 边 数 据 (比如 两 
个 概念 同时 出 现在 一 个 文档 中 的 次 数 )。 为 了 支持 这 种 计算 ，GraphX 提供 了 一 个 数据 结构 
EdgeTriplet[VD，ED]， 该 数据 结构 将 顶点 和 边 的 属性 连同 两 个 顶点 的 了 D 一 起 包装 进 一 个 
对 象 。 给 定 topicCountGraph 上 的 一 个 EdgeTriplet， 就 能 算出 卡 方 统 计量 ， 代 码 如 下 : 


def chiSq(YY: Int, YB: Int, YA: Int，T: Long): Double = { 


vaL NB =T - YB 
vaL NA=T -YA 
val YN = YA - YY 
val NY = YB - YY 
vaLNN =T-NY -YN -YY 


val inner = (YY * NN - YN * NY) - T / 2.0 
T * math.pow(inner, 2) / (YA * NA * YB * NB) 
} 


然后 可 以 用 该 方法 通过 mapTriplets 算 子 转 换 边 的 值 。mapTriplets 算 子 返回 一 个 新 图 ， 这 
图 的 边 的 属性 就 是 每 个 伴生 对 的 卡 方 统计 量 。 于 是 我 们 就 可 以 大 概 知道 该 统计 量 在 所 有 
边 上 的 分 布 情况 了 : 


人 


val chiSquaredGaraph = topicCountGraph.mapTriplets(triplet => { 
chisq(triplet.attr, triplet.srcAttr, triplet.dstAttr, T) 


}) 
chiSquaredGraph.edges.map(x => x.attr).stats() 


(count: 259920, mean: 546.97， 
stdev: 3428.85, max: 222305.79, min: 0.0) 
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计算 完 卡 方 统计 量 ， 我们 想 用 它 去 过 滤 那 些 没 有 意义 的 伴生 概念 对 。 从 边 的 分 布 可 以 看 
出 ， 数 据 中 卡 方 统计 量 的 范围 很 大 ， 所 以 应 该 过 滤 掉 更 多 的 噪声 边 。 对 一 个 2x2 的 相 
关 性 表 ， 如 果 变 量 没 有 相关 性 ， 我 们 期 望 卡 方 指标 的 值 服从 自由 度 为 1 的 卡 方 分 布 。 自 
由 度 为 1 的 卡 方 分 布 的 99.999 百 分 位 数 大 约 为 19.5， 因 此 我 们 将 该 值 作为 过 滤 边 的 阔 
值 ， 这 样 过 滤 后 图 中 就 只 剩 下 那些 置信 和 度 非 常 高 的 有 意义 的 伴生 关系 。 我 们 将 在 图 上 利用 
subgraph 方法 进行 过 滤 ， 这 个 方法 接受 EdgeTriplet 的 一 个 布尔 函数 ， 用 以 判断 子 图 应 该 
包含 哪些 边 : 


val interesting = chiSquaredGraph.subgraph( 

triplet => triplet.attr > 19.5) 

interesting.edges.count 

176664 
我 们 采用 的 非常 严格 的 过 滤 规 则 将 原始 伴生 关系 图 中 的 约 三 分 之 一 的 边 都 排除 在 外 。 该 规 
则 没有 将 更 多 的 边 过 滤 掉 ， 这 不 是 件 坏事 ， 因 为 我 们 预期 图 中 大 多 数 伴生 概念 实际 上 是 语 
义 相 关 的 ， 并 且 它 们 因此 同时 出 现 的 次 数 较 多 ， 而 不 是 碰巧 。 下 一 市 我 们 将 分 析 子 图 的 连 
接 度 和 总 体 度 分 布 ， 目 的 是 了 解 去 掉 噪声 边 是 否 会 对 图 的 结构 造成 重大 影响 。 


7.7.2 ”分析 去 掉 噪 声 边 的 子 图 


我 们 先 在 子 图 上 运行 连通 组 件 算法 ， 并 检查 组 件 个 数 和 组 件 大 小 ， 这 里 我 们 使 用 了 本 章 前 
四 为 原始 图 编写 的 函数 : 


val interestingComponentCounts = sortedConnectedComponents( 
interesting.connectedComponents()) 
interestingComponentCounts.size 


1042 
interestingComponentCounts .take(10) .foreach(printtLn) 


-9222594773437155629 ,11912) 
-6468702387578666337 ,4) 
-7038642868304457401 ,3) 
-7926343550108072887 ,3) 
-5914927920861094734,3) 
-4899133687675445365 ,3) 
-9022462685920786023 ,3) 
-7462290111155674971 ,3) 
-5504525564549659185 ,3) 
-7557628715678213859 ,3) 


AR AR en nen ne sp 条 


过 滤 掉 三 分 之 一 的 边 对 图 的 连通 性 影响 很 小 : 过 滤 之 后 ， 只 是 多 了 3 个“ 孤岛”( 过 滤 前 
有 1039 个 组 件 ， 过 滤 之 后 有 1042 个 组 件 )。 这 表明 与 最 大 的 组 件 弱 相关 的 三 个 概念 在 过 
谍 过 程 中 被 裁剪 掉 了 ， 经 过 过 滤 ， 它 们 形成 了 三 个 “孤岛 "。 最 大 的 组 件 在 过 滤 前 后 基本 


保持 不 变 ， 过 让 掉 三 分 之 一 的 边 并 疫 有 使 最 大 的 组 件 瓦解 。 这 说 明 图 的 连通 结构 对 噪声 边 
过 污 有 较 好 的 鲁 棒 性 。 检 查 一 下 过 滤 后 图 的 度 分 布 ， 情 况 也 较为 类 似 : 


val interestingDegrees = interesting.degrees.cache() 
interestingDegrees.map(_._2).stats() 


(count: 12062, mean: 28.30, 
stdev: 44.84, max: 1603.0, min: 1.0) 


过 滤 前 顶点 度 的 平均 值 约 为 43， 过 滤 后 顶点 度 的 平均 值 稍微 小 一 些 ， 约 为 28。 然 而 更 值 
得 注意 的 是 ， 过 滤 前 后 顶点 的 最 大 度 下 降 非 常 大 ， 过 滤 前 为 3753， 过 滤 后 为 1603。 我 们 
看 一 下 过 滤 之 后 概念 和 度 的 关系 ， 情 况 如 下 : 


topNamesAndDegrees(interestingDegrees, topicGraph).foreach(println) 


(Research,1603) 
(Pharmacology ,873) 
(Toxicology ,814) 
(Rats,716) 
(Pathology ,704) 
(Child,617) 
(Metabolism,587) 
(Rabbits ,560) 
(Mice,526) 
(Adolescent,510) 


看 起 来 我 们 的 卡 方 过 滤 准 则 效果 不 错 : 它 在 清除 对 应 普遍 概念 的 边 的 同时 保留 了 代表 概念 
之 间 有 意义 并 且 有 值得 注意 的 关系 的 那些 边 。 我 们 可 以 继续 用 不 同 的 卡 方 过 着 准则 进行 试 
验 ， 并 且 观 察 它 们 对 图 的 连通 性 和 度 分 布 的 影响 。 如 果 能 找到 卡 方 分 布 的 某 个 值 ， 并 使 用 
它 作 为 过 滤 准 则 时 ， 图 中 大 型 连通 组 件 开始 瓦解 ， 这 种 尝试 将 是 很 有 意义 的 。 或 者 那个 最 
大 的 组 件 只 是 不 断 “ 融 化 ， 就 像 一 座 巨 大 的 冰山 随 着 时 间 慢 慢 消融 。 


7.8 小 世界 网 络 


图 的 连通 性 和 度 分 布 让 我 们 了 解 了 图 的 总 体 结构 ， 而 GraphX 简化 了 这 些 属 性 的 计算 和 分 
析 。 在 这 一 节 中 我 们 将 深入 讲解 GraphX API 并 介绍 如 何 利用 这 些 API 来 计算 GraphX 并 
不 内 置 支持 的 图 的 一 些 高 级 属性 。 


随 着 计算 机 网 络 的 崛起 (比如 万 维 网 以 及 Facebook 和 Twittert 等 社交 网 络 )， 数 据 科学 家 
现在 有 了 丰富 的 数据 集 。 这 些 数 据 集 描述 了 真实 的 网 络 结 构 和 形态 ， 而 不 是 数学 家 和 图 论 
学 家 所 研究 的 传统 的 理想 模型 。 最 早 论述 真实 网 络 属性 的 论文 之 一 就 是 Duncan Watts 和 
Steven Strogatz 于 1998 年 发 表 的 题 为 “Collective dynamics of "small-world networks” 的 论 
文 (http://research.yahoo.com/files/w_s_NATURE_0.pdf)。 这 篇 会 议论 文 第 一 次 为 具有 两 个 
“小 世界 ”属性 的 图 提出 了 数学 生成 模型 。 现 实生 活 中 的 图 具有 如 下 两 个 “小 世界 ”属性 。 
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。 网 络 中 大 部 分 节点 的 度 都 不 高 ， 它 们 与 其 他 节点 形成 相对 稠密 的 和 化。 也 就 是 说 ， 一 个 节 
点 的 邻接 点 大 部 分 也 是 相连 的 。 

。 虽然 图 中 大 部 分 市 点 的 度 不 高 而 且 属 于 相对 稠密 的 徐 ， 但 只 需 经 过 少数 几 条 边 可 能 从 一 
个 网 络 节 点 快速 到 达 另 一 个 市 点 。 


对 上 述 两 个 属性 ，Watts 和 Strogatz 分 别 定 义 了 一 个 指标 ， 这 样 就 可 以 根据 图 的 指标 强度 对 
图 进行 排序 。 本 节 我 们 将 用 GraphX 来 对 我 们 的 概念 网 络 计算 这 些 指标 ， 并 且 将 得 到 的 指 
标 和 理想 随机 图 的 这 些 指标 进行 比较 ， 从 而 测试 我 们 的 概念 网 络 是 否 具有 小 世界 的 属性 。 


7.8.1 系 和 聚 类 系数 

如 果 对 每 个 顶点 都 存在 一 条 边 使 其 与 其 他 任何 节点 都 相连 ， 则 这 个 图 就 是 完备 的 。 给 定 一 
个 图 ， 可 能 有 多 个 顶点 子 集 是 完备 的 ， 我 们 把 这 些 完备 的 子 图 称 为 系 (clique)。 图 中 存在 
许多 大 型 的 系 表示 该 图 具有 某 种 局 部 稠密 结构 ， 我 们 发 现 真 实 的 小 世界 网 络 也 具有 这 种 局 
部 稠密 结构 。 


不 幸 的 是 ， 在 给 定 图 中 寻找 系 是 非常 困难 的 。 判 断 一 个 图 是 否 有 给 定 大 小 的 系 是 一 个 NP- 
完备 问题 。 也 就 是 说 ， 即 使 在 一 个 小 型 的 图 中 寻找 系 ， 甚 计算 复杂 度 也 是 非常 高 的 。 


计算 机 科学 家 提出 了 许多 简单 的 指标 ， 利 用 这 些 指标 可 以 较 好 地 了 解 一 个 图 的 局 部 稠密 
性 ， 而 不 用 花费 巨大 的 计算 代价 来 寻找 给 定 大 小 的 图 中 所 有 的 系 。 其 中 一 个 指标 就 是 顶点 
的 三 角 计 数 ， 三 角形 是 一 个 完备 图 ， 顶 点 的 三 角 计数 就 是 包含 该 顶点 的 三 角形 的 个 数 。 
三 角 计 数 度量 了 广 有 多 少 个 邻接 点 是 相互 连接 的 。Watts 和 Strogatz 定义 了 一 个 新 的 指标 ， 
称 为 局 部 聚 类 系数 ， 它 是 一 个 顶点 的 实际 三 角 计数 与 该 顶点 与 其 邻接 点 可 能 的 三 角 计 数 的 
比率 。 对 无 向 图 来 说 ， 有 大 个 邻接 点 和 + 个 三 角 计 数 的 顶点 ， 其 局 部 聚 类 系数 C 为 : 
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k(k—l) 
现在 我 们 用 GraphX 来 计算 过 滤 后 的 概念 图 的 每 个 节点 的 局 部 聚 类 系数 。GraphX 有 一 个 
内 置 方法 triangleCount， 它 返回 一 个 Graph 对 象 ， 其 中 VertexRDD 包含 了 每 个 顶点 的 三 
角 计 数 。 


val triCountGraph = graph.triangleCount() 
triCountGraph.vertices.map(x => x._2).stats() 


(count: 13034, mean: 163.05, 
stdev: 616.56, max: 38602.0, min: 0.0) 


要 计算 局 部 聚 类 系数 ， 我 们 需要 通过 每 个 顶点 可 能 的 三 角 计数 对 该 顶点 的 三 角 计数 进行 归 
一 。 每 个 顶点 可 能 的 三 角 计 数 可 以 从 degrees RDD 计算 得 出 ， 代 码 如 下 : 


val maxTrisGraph = graph.degrees.mapValues(d => dx (d - 1) / 2.0) 
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现在 我 们 要 把 tricountGraph 中 包含 三 角 计数 的 VertexRDD 和 上 面 得 到 的 归 


一 化 VertexRDD 


进行 联结 ， 并 计算 二 者 的 比率 ， 在 这 个 过 程 中 ， 对 那些 只 有 一 条 边 的 顶点 要 注意 避免 零 除 


问题 : 


val clusterCoefGraph = triCountGraph.vertices. 
innerJoin(maxTrisGraph) { (vertexId, triCount, maxTris) => { 
if (maxTris == 0) 0 else triCount / maxTris 
} 
3 


对 图 中 所 有 顶点 局 部 聚 类 系数 取 平 均值 ， 就 得 到 网 络 平均 聚 类 系数 : 


clusterCoefGraph.map(_._2).sum() / graph.vertices.count() 


0.2784084744308219 


7.8.2 ”用 Pregel 计 算 平均 路 径 长 度 


小 世界 网 络 的 第 二 个 属性 就 是 任何 两 个 市 点 之 间 的 最 短路 径 是 短 的 ， 本 市 我 们 将 计算 过 滤 


之 后 的 概念 图 中 的 大 型 连通 组 件 市 点 的 平均 路 径 长 度 。 


计算 图 中 顶点 之 间 的 路 径 长 度 是 一 个 迭代 过 程 ， 和 我 们 之 前 寻找 连通 组 们 
似 。 该 过 程 的 每 个 阶段 ， 每 个 顶点 将 保留 它 所 接触 过 的 顶点 列表 并 记录 至 
离 。 接 着 每 个 顶点 都 向 其 邻接 点 查询 它 对 应 的 节点 列表 ， 如 果 发 现 该 列表 
就 用 新 节点 更 新 自己 的 节点 列表 。 查 询 邻 接点 并 更 新 自己 节点 列表 的 过 程 
直到 所 有 市 点 都 没有 发 现 有 新 市 点 需要 添加 为 止 。 


的 迭代 过 程 类 
I 这 些 顶点 的 距 
中 有 新 的 顶点 ， 
一 直 继 续 下 去 ， 


这 个 在 大 规模 分 布 式 图 上 运行 的 以 顶点 为 中 心 的 从 代 式 并 行 计算 方 法 ， 是 以 谷歌 在 2009 
年 发 表 的 题 为 “Pregel: a system for large-scale graph processing” 的 论文 (http://dl.acm.org/ 
citation.cfm?id=1807184) 为 基础 的 。Pregel 早 于 MapReduce 之 前 就 已 经 提出 ， 它 基于 一 个 


称 为 “批量 同步 并 行 ”(BSP，Bulk-Synchronous Parallel) 的 分 布 式 计算 模型 


型 。BSP 程序 将 


并 行 处 理 阶段 分 成 两 个 步骤 : 计算 和 通信 。 在 计算 环节 ， 图 中 每 个 顶点 检查 自己 的 内 部 状 
态 并 决定 是 否 向 图 中 其 他 节点 发 送 消息 。 在 通信 环节 ，Pregel 框架 负责 将 计算 环 市 得 到 的 


消息 路 由 到 相应 的 顶点 ， 目 标 顶 点 处 理 接收 到 的 消息 之 后 更 新 自己 的 内 部 状态 ， 并 可 能 在 
下 一 个 计算 环 市 中 产生 新 消息 。 计 算 和 通信 的 过 程 会 一 直 继 续 下 去 ， 直 到 图 中 所 有 顶点 都 


一 致 投票 同意 停止 运行 ， 这 时 整个 过 程 就 结束 了 。 


BSP 是 最 早 的 并 行 编程 模型 之 一 ， 它 具有 良好 的 通用 性 而 且 具 有 容错 性 ， 因 此 设计 BSP 系 
统 时 捕捉 并 保持 任何 计算 阶段 的 系统 状态 是 可 能 的 。 有 了 这 些 状 态 后 ， 如 果 某 台 机 器 发 生 
故障 ， 就 可 以 从 其 他 机 器 上 复制 出 发 生 故 障 的 机 器 的 状态 ， 整 个 计算 就 可 以 回流 到 故障 发 


生前 的 状态 ， 这 样 计 算 过 程 就 可 以 继续 下 去 。 


自从 谷歌 发 表 了 关于 Pregel 的 论文 之 后 ， 人 们 将 BSP 编程 模型 移植 到 HDFS 之 上 并 开发 了 
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许多 开源 项 目 ， 其 中 包括 Apache Giraph 和 Apache Hama。 实 践 证 明 这 些 系统 对 那些 适 

于 BSP 编程 模型 的 特定 问题 非常 有 用 ， 比 如 大 规模 PageRank 运算 。 
以 集成 到 标准 的 数据 并 行 处 理工 作 流 中 ， 所 以 它们 并 没有 广泛 地 被 数据 科学 家 当 作 分 析 工 
具 ， 也 就 没有 被 广泛 部 署 。 而 GraphX 解决 了 这 个 问题 。 由 于 GraphX 可 以 方便 地 使 用 图 
来 描述 数据 并 设计 算法 来 对 图 进行 处 理 ， 因 此 数据 科学 家 可 以 轻松 地 将 图 计算 集成 到 数据 
并 行 处 理工 作 流 中 ， 而 且 GraphX 还 提供 了 表达 BSP 运算 的 内 置 pregel 运算 符 ， 这 个 算 子 
是 以 图 为 基础 的 。 本 节 我 们 将 说 明 怎 样 使 用 这 个 运算 符 来 实现 对 一 个 图 的 平均 路 径 长 度 的 
计算 ， 这 是 一 个 友 代 式 的 图 并 行 运算 ， 包 括 : 


(分 析出 每 个 项 点 需要 记录 的 状态 

QQ) 实现 一 个 函数 ， 需 要 考虑 当前 的 状态 并 且 根据 两 个 相连 顶点 决定 下 一 阶段 要 发 送 哪些 
消息 ， 

G) 实现 一 个 函数 ， 汇 总 来 自 不 同 顶点 的 所 有 消息 ， 然 后 将 函数 的 结果 传递 给 顶点 以 便 更 新 
其 状态 。 


使 用 pregel 实现 分 布 式 算法 时 需要 确定 三 个 问题 。 第 一 ， 要 确定 用 何 种 数据 结构 表示 每 
个 顶点 状态 和 顶点 之 间 传 递 的 消息 。 对 我 们 要 解决 的 平均 路 径 长 度 问 题 ， 我 们 希望 每 个 顶 
点 都 有 一 个 查询 表 ， 这 个 查询 表 包 含 当 前 顶点 所 知道 的 顶点 的 ID 和 它 到 这 些 顶 点 的 距离 。 
我 们 将 为 每 个 顶点 建立 一 个 Map[VertexId，Int] 并 把 这 些 信息 存储 在 其 中 。 类 似 地 ， 发 送 
给 每 个 顶点 的 消息 也 应 该 有 一 个 查询 表 ， 该 表 包 含 顶点 ID 和 距离 。 这 个 距离 是 根据 邻接 
点 传递 过 来 的 信息 计算 出 来 的 ， 同 样 可 以 用 Map[VertexId，Int] 来 表示 这 些 信息 。 


a tt ei 构 之 后 ， 我 们 可 以 实现 两 个 函数 。 第 一 函数 是 
mergeMaps， 用 于 将 新 消息 中 的 信息 合并 到 顶点 状态 之 中 。 对 我 们 讨论 的 问题 来 说 ， 顶 点 状 
态 和 消息 都 是 Map[VertexId，Int] 类 型 的 ， 因此 需要 把 两 个 map 中 的 内 容 合 并 在 一 起 并 将 
每 个 VertexId 关联 到 两 个 map 中 该 vertexId 对 应 两 个 条 目的 最 小 值 。 


def mergeMaps(m1: Map[VertexId，Int]，m2: Map[VertexId, Int]) 
: Map[VertexId, Int] = { 
def minThatExists(k: VertexId): Int = { 
math.min( 
m1.getOrElse(k, Int.MaxValue), 
m2.getOrElse(k, Int.MaxValue)) 
} 


(m1.keySet ++ m2.keySet).map { 
k => (k, minThatExists(k)) 
}.toMap 


顶点 的 update 函数 同样 有 一 个 VertexId 参数 ， 因 此 我 们 定义 一 个 很 简单 的 函数 ， 它 有 
一 个 VertexId 类 型 参数 和 一 个 Map[VertexId，Int] 类 型 参数 ， 但 所 有 实质 性 的 任务 由 
mergeMaps 代理 执行 ， 代 码 如 下 : 


def update( 
id: VertexId ， 
state: Map[VertexId, Int], 
msg: Map[VertexId, Int])= { 
mergeMaps(state, msg) 


因为 我 们 在 算法 执行 过 程 中 传递 的 消息 的 类 型 也 是 Map[VertexId，Int]， 并 且 我 们 想 把 这 
些 消息 合并 起 来 并 保留 每 个 键 对 应 的 最 小 值 ， 所 以 我 们 同样 可 以 在 Pregel 运行 的 reduce 阶 
段 使 用 mergeMaps 国 数 。 


最 后 一 步 ， 通 常 也 是 最 复杂 的 一 步 : 我 们 需要 编写 代码 来 构建 发 送 给 每 个 顶点 的 消息 ， 依 
据 是 每 次 迭代 时 每 个 顶点 从 邻接 点 收 到 的 信息 。 这 里 的 基本 思想 如 下 : 每 个 顶点 将 当前 的 
Map[VertexId，Int] 中 每 个 键 对 应 的 值 加 1， 然后 用 mergeMaps 方法 把 加 过 1 后 的 map 值 
和 从 邻接 点 收 到 的 值 合并 ， 如 果 mergeMaps 方法 的 返回 结果 与 邻接 点 内 部 的 Map[VertexId， 
Int] 不 同 ， 就 将 该 结果 发 送 给 邻接 点 。 这 一 系列 操作 的 代码 如 下 : 


def checkIncrement( 
a: Map[VertexId, Int], 
b: Map[VertexId, Int], 
bid: VertexId) = { 
val aplus = a.map { case (v, d) =>>v -> (d+1)} 
if (b != mergeMaps(apLus，b)) { 
Iterator((bid, aplus)) 
} else{ 
Iterator .empty 
} 
} 


实现 好 checkIncrement 之 后 ， 我 们 来 定义 iterate 函数 。 在 每 个 Pregel 迭代 过 程 中 ， 我 们 
用 这 个 函数 来 对 EdgeTriplet 内 部 的 src 和 dst 顶点 执行 消息 更 新 ， 代 码 如 下 : 
def iterate(e: EdgeTriplet[Map[VertexId, Int], _])={ 
checkIncrement(e.srcAttr, e.dstAttr, e.dstId) ++ 


checkIncrement(e.dstAttr, e.srcAttr, e.srcId) 


} 
每 次 迭代 时 ， 需 要 根据 每 个 顶点 已 经 知道 的 路 径 长 度 来 确定 需要 传递 给 每 个 顶点 的 路 径 长 
度 。 接 着 我 们 需要 返回 一 个 迭代 器 ， 它 包含 一 个 (VertexId，Map[VertexId，Int]) 元 组 ， 
其 中 第 一 个 vertexId 代表 消息 的 目的 顶点 ID ，Map[vertexId，Int] 代表 消息 本 身 。 


如 果 一 次 欠 代 中 有 任何 顶点 没有 收 到 消息 ，preget 运算 符 会 认为 该 顶点 的 运算 已 经 完成 并 
将 不 再 把 它 包 括 在 后 续 处 理 中 。 一 旦 iterate 方法 没有 消息 发 生 给 任何 顶点 ， 算 法 就 结束 。 


相对 于 其 他 BSP 系统 实现 (比如 Giraph)，GraphX 的 pregel 运算 符 实 现 有 
一 个 限制 : GraphX 中 只 有 存在 连接 边 的 顶点 之 间 才 能 发 送 消 息 ， 而 Giraph 
可 以 在 图 中 任何 节点 间 发 送 消 息 。 
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现在 完成 了 函数 的 编写 ， 我 们 可 以 准备 BSP 运行 所 需 的 数据 了 。 如 果 集 群 内 存 够 多 的 话 ， 
我 们 可 以 用 GraphX 和 Pregel 式 的 算法 计算 任意 两 个 顶点 之 间 的 路 径 长 度 。 但 是 ， 对 只 想 
了 解 图 中 路 径 长 度 的 总 体 分 布 而 言 ， 我 们 没 必 要 这 么 做 。 其 实 我 们 只 需要 在 顶点 的 一 个 
随机 样本 子 集 上 计算 任意 两 个 顶点 之 间 的 路 径 长 度 。 使 用 RDD 的 sample 方法 可 以 对 所 有 
VertexId 进行 2% 的 不 重复 采样 ， 随 机 数 生成 器 的 随机 种 子 采 用 1729L。 


val fraction = 0.02 

val replacement = false 

val sample = interesting.vertices.map(v => v._1). 
sample(replacement, fraction, 1729L) 

val ids = sample.collect().toSet 


现在 我 们 要 建立 一 个 新 的 Graph 对 和 象 ， 如 果 一 个 顶点 在 样本 子 集中 ，Graph 对 象 的 顶点 
Map[VertexId，Int] 的 值 非 空 ; 


val mapGraph = interesting.mapVertices((id, ) => 
if (ids.contains(id)) { 
Map(id -> 0) 
} else { 
Map[VertexId, Int]() 
} 
}) 


最 后 ， 为 了 触发 算法 的 运行 ， 我们 需要 向 顶点 发 送 一 个 初始 消息 。 对 我 们 讨论 的 算法 而 
言 ， 这 个 初始 消息 是 一 个 空 的 Map[VertexId，Int]。 接 下 来 我 们 就 可 以 调用 pregel 方法 ， 
pregel 方法 后 面 是 在 每 次 迭代 中 要 执行 的 update、iterate 和 mergeMaps 方法 。 


val start = Map[VertexId, Int]() 
val res = mapGraph.pregel(start)(update, iterate, mergeMaps) 


上 面 的 代码 可 能 需要 运行 几 分 钟 。 算 法 的 迭代 次 数 是 样本 集中 最 长 路 径 的 长 度 加 1。 但 代 
码 运 行 结 束 后 ， 我 们 可 以 用 flatMap 方法 得 到 顶点 的 (VertexId，VertexId，Int) 元 组 ， 它 
就 是 刚才 算出 来 的 不 同 路 径 的 长 度 : 


val paths = res.vertices.flatMap { case (id, m) => 
m.map { case (k, v) => 
if (id < k) { 
(id, k, v) 
} else { 
(k, id, v) 


} 
}.distinct() 
paths.cache() 


/说 


我 们 现在 可 以 计算 非 零 路 径 长 度 的 概要 统计 量 和 样本 路 径 长 度 的 直方 


paths.map(_._3).filter(_ > 0).stats() 


(count: 2701516, mean: 3.57, 
stdev: 0.84, max: 8.0, min: 1.0) 


val hist = paths.map(_._3).countByValue() 
hist.toSeq.sorted.foreach(println) 
(0,248) 

(1,5653) 

(2,213584) 

(3,1091273) 

(4,1061114) 

(5,298679) 

(6,29655) 

(7,1520) 

(8,38) 


样本 的 平均 路 径 长 度 为 3.57， 上 一 市 我 们 计算 出 了 聚 类 系数 为 0.274。 表 7-1 给 出 了 三 个 
不 同 的 小 世界 网 络 的 平均 路 径 长 度 和 聚 类 系数 ， 同 时 还 给 出 了 对 这 三 个 网 络 进行 随机 采 
样 (顶点 数 和 边 数 相同 ) 之 后 的 图 的 相应 概要 统计 量 。 这 些 数 据 来 源 于 Auber 等 于 2003 
年 发 表 的 论文 “Multiscale visualization of small world networks” (http://dl.acm.org/citation. 
cfm?id=1947385)。 


表 7-1: 小 世界 网 络 举例 


图 平均 路 径 长 度 ( APL ) 聚 类 系数 ( CC ) 随机 APL 随机 CC 
IMDB 3.20 0.967 2.67 0.024 
Mac OS 9 3.28 0.388 3.32 0.018 
.edu 网 站 4.06 0.156 4.048 0.001 


IMDB 图 是 根据 参 演 同一 部 电影 的 演员 生成 的 ，Mac OS 9 网 络 描述 的 是 Mac OS 9 操 
作 系 统 中 头 文 件 被 包含 在 相同 源 代码 文件 中 的 情况 。 第 三 行 .edu 网 站 是 关于 以 顶级 域 
名 .edu 结尾 的 网 站 相互 链接 的 情况 ， 引 用 源 自 Adamic 1999 年 的 一 篇 论文 (http://www. 
hpl.hp.com/research/idl/papers/smallworld/smallworldpaper.html)。 我 们 的 分 析 结 果 表 明 ， 
MEDLINE 论文 引用 索引 中 的 MeSH 标签 网 络 的 平均 路 径 长 度 和 聚 类 系数 值 ， 与 其 他 知名 
的 小 世界 网 络 的 对 应 统计 量 差 不 多 。 埃 虑 到 平均 路 径 长 度 比较 小 ， 它 们 的 聚 类 系数 比 我 们 
预想 的 都 要 大 。 


7.9 ”小结 


起 初 人 们 研究 小 世界 网 络 只 是 出 于 好 奇 。 现 实 世 界 的 网 络 有 如 此 多 的 种 类 ， 不 管 它们 来 自 
社会 科学 、 政 治学 ， 还 是 来 自 神经 科学 和 细胞 生物 学 ， 都 有 非常 相似 而 奇特 的 结构 属性 ， 
这 种 现象 非常 有 意思 。 最 近 的 研究 表明 ， 当 这 些 网 络 中 的 小 世界 结构 出 现 异常 时 ， 就 暗示 
着 这 个 网 络 可 能 发 生 了 功能 性 问题 。 杜 克 大 学 的 Jeffrey Petrella 博士 收集 了 许多 这 方面 的 
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研究 (http://pubs.rsna.org/action/cookieAbsent)， 这 些 研 究 表明 大 脑 神经 元 网 络 具有 小 世界 
结构 ， 这 种 小 世界 结构 异常 的 病人 被 诊断 出 患 有 阿尔 兹 海 默 症 、 精 神 分 裂 症 、 抑 郁 症 或 注 
意 力 缺 陷 障 得。 通常 现实 世界 中 的 图 都 应 该 具有 小 世界 属性 ， 如 果 没 有 显示 这 种 属性 则 表 
示 可 能 存在 问题 ， 比 如 公司 之 间 交 易 或 信托 关系 的 小 世界 图 中 可 能 反映 出 欺诈 活动 。 
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纽约 出 租车 轨迹 的 空间 和 时 间 数 据 分 析 


作者 : Josh Wills 


时 间 和 空间 最 让 我 困惑 ;但 也 没什么 不 让 我 那么 困惑 ， 因 为 我 从 来 不 想 别 的 。 
一 一 Charles Lamb 


纽约 的 黄色 出 租车 很 有 名 ， 对 许多 到 纽约 旅游 的 人 来 讲 ， 一 边 吃 着 街头 小 店 买 来 的 热狗 ， 


一 边 招呼 黄色 出 租车 已 经 成 为 旅游 中 不 可 或 缺 的 一 部 分 ， 就 像 大 家 一 定 要 坐 电梯 上 帝国 大 
厦 顶 层 一 样 。 


纽约 本 地 人 对 什么 时 候 什么 地 方 最 容易 打 到 车 可 谓 各 怀 绝技 ， 特 别 古 高 峰 期 或 下 雨天 。 但 
在 每 天 下 午 4 点 到 5 点 出 租车 换班 的 时 段 ， 估 计 像 他 们 这 样 的 高 手 也 只 能 推荐 你 去 坐 地 铁 
了 。 每 天 这 个 时 候 ， 黄 色 出 租车 需要 回 到 调度 中 心 (通常 在 皇后 区 ) 进行 交 班 。 如 果 交 班 
晚 了 ， 司 机 可 是 要 交 罚 款 的 。 


2014 年 3 月， 纽约 市 出 租车 和 豪华 轿车 委员 会 在 其 Twitter 账号 @nyctaxi (https://twitter. 
com/nyctaxi) 上 公布 了 出 租车 的 信息 图 。 这 个 信息 图 可 以 显示 任意 时 刻 在 途 出 租车 的 数量 
和 在 途 出 租车 被 占用 的 百分比 。 很 显然 ， 在 下 午 4 点 到 6 点 ， 在 途 车 数 将 大 大 减少 ， 而 且 
其 中 三 分 之 二 的 车 都 被 占用 。 


这 条 推 文 引 起 了 城市 规划 专家 Chris Whong 的 注意 ，Chris 可 是 个 数据 迷 ， 他 立刻 
给 @nyctaxi 账号 发 了 一 条 推 文 去 了 解 信 息 图 中 所 用 的 数据 是 否 公 开 。 委 员 会 回复 说 只 要 提 
一 份 FOIL (Freedom of Information Law， 信 息 自 由 法 律 ) 并 提供 足够 大 的 硬盘 就 
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可 以 拿 到 他 想 要 的 数据 。 于 是 Chris Whong 就 填 好 PDF 申请 表 ， 买 了 两 块 500 GB 的 硬盘 
并 寄 给 委员 会 。 两 个 工作 日 之 后 ，Chris 就 拿 到 了 2013 年 1 月 1 号 到 12 月 31 号 全 年 的 所 
有 出 租车 乘 车 数据 。 更 令 人 欢呼 的 是 ，Chris 甚至 把 所 有 运营 数据 也 公布 到 了 网 上 ， 这 些 
数据 成 为 很 多 漂亮 的 纽约 交通 信息 图 的 依据 。 


出 租车 利用 率 ， 也 就 是 出 租车 有 乘客 乘坐 的 时 间 与 在 途 时 间 的 比例 ， 是 理解 出 租车 经 济 学 
的 一 个 很 重要 的 统计 量 。 影 响 利 用 率 的 一 个 因素 就 是 乘客 的 目的 地 : 如 果 出 租车 乘客 中 午 
时 分 在 联合 广场 附近 下 车 ， 不 出 两 分 钟 肯 定 又 有 乘客 上 车 。 但 是 乘客 如 果 是 凌晨 两 点 在 史 
坦 顿 昂 下 车 ， 那 这 辆 出 租车 就 只 能 开 回 到 曼哈顿 才能 接 下 一 单 生意 。 我 们 想 对 这 种 影响 进 
行 量化 ， 并 由 此 归结 出 租车 平均 等 单 时 间 与 乘客 下 车 点 区 域 的 函数 关系 ， 这 些 区 域 包括 曼 
哈 顿 、 布 鲁 克 林 、 皇 后 、 布 朗 克 斯 、 史 坦 顿 岛 和 其 他 区 域 ( 比 如， 乘客 在 纽约 国际 机 场 之 
类 的 市 郊 下 车 的 情况 )。 


进行 数据 分 析 时 我 们 往往 要 处 理 两 类 数据 : 时 间 数 据 (比如 日 期 和 时 间 ) 和 空间 数据 ( 比 
如 经 纬度 和 边界 ) 。 本 章 我 们 将 说 明 如 何 用 Scala 和 Spark 来 处 理 这 两 类 数据 。 


8.1 数据 的 获取 

为 了 分 析出 租车 平均 等 单 时 间 与 乘客 下 车 点 区 域 的 国 数 关系 ， 我 们 只 需要 2013 年 1 月 份 
以 后 的 打车 费用 数据 ， 这 些 数据 解压 之 后 大 约 有 2.5 GB ， 你 可 以 从 http://www.andresmh. 
com/nyctaxitrips/ 下 载 2013 年 每 个 月 的 数据 。 如 果 你 手头 有 一 个 足够 大 的 Spark 集群 ， 也 
可 以 在 全 年 的 数据 上 重 现 接 下 来 的 分 析 。 现 在 我 们 先 在 客户 端 机 器 上 建立 一 个 工作 目录 ， 
然后 看 一 下 运营 数据 的 结构 ， 代 码 如 下 : 


$ mkdir taxidata 

$ cd taxidata 

$ wget https://nyctaxitrips.blob.core.windows.net/data/trip data 1.csv.zip 
$ unzip trip_data 1.csv.zip 

$ head -n 10 trip data 1.csv 


除了 文件 头 ，CSYV 文件 每 行 数据 代表 一 次 打车 记录 。 每 条 打车 记录 包含 如 下 信息 : 出 租车 
(车 牌号 的 哈 希 )、 司 机 (出 租车 司机 驾照 号 的 哈 希 )、 打 车 的 开始 时 间 和 结束 时 间 ， 以 及 
乘客 上 车 点 和 下 车 点 的 经 纬度 坐标 。 


8.2 ”基于 Spark 的 时 间 和 空间 数据 分 析 


Java 平台 的 一 大 特点 就 是 多 年 来 用 这 个 语言 开发 了 大 量 代 码 : 对 于 你 可 能 用 到 的 任何 数据 
结构 和 算法 ,很 可 能 早 就 有 人 写 好 了 一 个 用 于 解决 这 个 问题 的 Java 库 ， 而 且 很 可 能 有 个 开 
源 的 版 本 可 以 下 载 来 用 ， 根 本 不 用 付 什 么 许可 费 。 


当然 ， 我 们 不 能 因为 有 这 样 一 个 免费 的 库存 在 就 一 定 要 使 用 它 ， 开 源 项 目的 质量 参差 不 
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齐 ，bug 修复 和 新 特性 的 进展 状态 也 不 一 样 ， 而 且 API 设计 和 文档 与 教程 的 易 用 性 也 不 
相同 。 


我 们 选择 工具 的 过 程 和 开发 人 员 为 应 用 开发 选择 工具 的 过 程 不 太一 样 。 我 们 希望 选择 的 工 
具 便 于 交互 式 数据 分 析 ， 并 且 易 于 分 布 式 应 用 使 用 。 具 体 来 说， 我 们 需要 确保 在 RDD 中 
要 处 理 的 主要 数据 类 型 支持 Serializable 接口 ， 最 好 还 能 方便 地 用 Kryo 之 类 的 库 进行 序 
列 化 。 


除 此 之 外 ， 我 们 还 希望 用 于 交互 式 分 析 的 库 的 外 部 依赖 越 少 越 好 。 虽 然 Maven 和 SBT 之 
类 的 工具 可 以 帮助 应 用 开发 人 员 在 构建 引用 时 处 理 复杂 的 依赖 关系 ， 但 我 们 希望 用 一 个 
JAR 文件 搞定 所 有 代码 ， 只 要 把 这 个 JAR 加 载 到 Spark shell 中 就 可 以 开始 数据 分 析 了 。 然 
而 ， 在 Spark 中 载 入 许多 依赖 库 可 能 会 导致 它们 与 Spark 自身 所 依赖 的 其 他 库 之 间 的 版 本 
中 突 ， 这 种 错误 非常 难 调试 ， 被 开发 人 员 称 为 JAR 灾难 。 


~ 


最 后 ， 我 们 希望 工具 的 API 相对 简单 而 且 功 能 丰富 ， 不 需要 使 用 那些 花哨 的 面向 Java 的 设 
计 模 式 ， 比 如 什么 抽象 工厂 和 访问 者 之 类 的 模式 。 虽 然 这 些 模式 对 应 用 开发 人 员 可 能 很 有 
用 ， 但 它们 往往 在 代码 中 引入 与 分 析 无 关 的 复杂 度 。Scala 提供 了 对 许多 Java 工具 的 封装 ， 
利用 这 些 封 装 可 以 在 使 用 Scala 时 减少 设计 模式 所 需 的 程式 化 代码 ， 如 果 我 们 的 工具 也 能 
这 样 那 就 更 好 了 1! 


8.3 ”基于 JodaTime 和 NScalaTime 的 时 间 数 据 处 理 


对 于 时 间 类 型 的 数据 ， 我 们 当然 可 以 用 Java 的 Date 类 和 Catendar 类 。 但 用 过 这 些 类 的 人 
都 知道 它们 很 难 用 ， 即 使 是 简单 操作 也 要 写 一 堆 的 程式 化 代码 。 很 多 年 以 来 ，JodaTime 都 
是 Java 程序 员 处理 时 间 数 据 的 首选 。 


Scala 有 一 个 包装 库 叫 作 NScalaTime， 它 提供 了 JodaTime 的 一 些 语法 糖 。 只 要 一 个 简单 的 
import 语句 就 可 以 得 到 它 所 有 的 功能 : 


import com.github.nscala_time.time.Imports._ 


JodaTime 和 NScalaTime 的 核心 都 是 DateTime 类 。 和 Java String 一 样 ，DateTime 类 的 对 象 
是 不 可 变 的 (与 之 不 同 的 是 ，Java API 中 常用 的 calendar/Date 类 对 象 是 可 变 的 ) ， 它 有 很 
多 处 理 时 间 数 据 的 方法 。 如 下 例 所 示 ，dt1 代表 2014 年 9 月 4 号 上 午 9 点 ，dt2 代表 2014 
年 10 月 31 号 下 午 3 点 : 


val dt1 = new DateTime(2014, 9, 4, 9, 0) 
dt1: org.joda.time.DateTime = 2014-09-04T09:00:00.000-07:00 


dt1.dayOfYear .get 
res60: Int= 247 
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val dt2 = new DateTime(2014, 10, 31, 15, 0) 
dt2: org.joda.time.DateTime = 2014-10-31T15:00:00.000-07:00 


dt1 < dt2 
res61: Boolean = true 


val dt3 = dt1 + 60.days 
dt3: org.joda.time.DateTime = 2014-11-03T09:00:00.000-08:00 


dt3 > dt2 
res62: Boolean = true 


为 了 进行 数据 分 析 ， 我 们 常常 需要 将 字符 形式 的 日 期 转换 成 DateTime 对 象 进行 计算 。 为 此 
可 以 使 用 Java 的 SimpleDateFormat， 它 可 以 用 于 解析 不 同 格式 的 日 期 。 下 面 我 们 将 解析 出 
租车 数据 集中 的 日 期 格式 数据 : 


import java.text.SimpleDateFormat 


val format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss") 
val date = format.parse("2014-10-12 10:30:44") 
val datetime= new DateTime(date) 


完成 了 DateTime 对 象 的 解析 之 后 ， 我 们 常常 想 在 这 些 对 象 上 进行 一 些 时 间 运 算 ， 比 如 找 出 
两 个 DateTime 对 象 之 间 差 多 少 秒 、 多 少 小 时 或 多 少 天 。 在 JodaTime 中 可 以 用 Duration 类 
来 表示 时 间 段 的 概念 ， 可 以 用 两 个 DateTime 实例 来 创建 Duration 实例 ， 代 码 如 下 : 


val d = new Duration(dt1, dt2) 
d.getMillis 

d.getStandardHours 
d.getStandardDays 


计算 时 间 段 时 要 考虑 大 量 关 于 不 同时 区 和 夏令 时 的 让 人 心烦 的 细 市 ，JodaTime 会 帮 我 们 搞 
定 所 有 这 些 问 题 。 


8.4 ”基于 Esri Geometry API 和 Spray 的 地 理 空间 
数据 处理 


在 JVM 上 进行 时 间 数 据 处 理 比 较 简单 : 只 要 用 JodaTime 就 好 了 ， 或 者 用 其 包装 类 
NscalaTime 以 使 分 析 代 码 更 好 理解 。 对 地 理 空间 数据 ， 问 题 就 没 这 么 简单 了 。 这 是 因为 有 
非常 多 不 同 的 工具 和 库 ， 这 些 工 具 和 库 又 有 不 同 的 功能 、 开 发 状态 和 成 熟 度 ， 目 前 并 没有 
一 个 主流 的 Java 库 对 所 有 地 理 空 间 应 用 场景 都 适用 。 


首先 要 搞 清楚 的 问题 是 我 们 的 地 理 数据 属于 哪 一 种 ”地 理 数 据 主要 分 为 矢量 和 光栅 两 种 ， 


不 同 的 数据 有 不 同 的 处 理工 具 。 在 本 章 的 场景 中 ， 我 们 有 出 租车 乘客 上 车 点 和 下 车 点 的 经 
纬度 数据 ， 以 及 表示 纽约 各 个 区 边界 的 矢量 数据 ， 这 些 矢 量 数 据 用 GeoJSON 格式 存储 。 
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因此 我 们 需要 一 个 可 以 解析 GeoJSON 数据 并 能 处 理 其 空间 关系 的 工具 。 具 体 来 说 ， 就 是 
该 工具 可 以 判断 某 经 纬度 所 代表 的 点 是 否 在 某 个 区 边界 所 组 成 的 多 边 形 中 。 


不 幸 的 是 ， 目 前 没有 一 个 开源 的 库 正 好 能 满足 我 们 的 要 求 。 有 一 个 GeoJSON 的 解析 工具 
可 以 把 GeoJSON 转换 成 Java 对 象 ， 但 却 没 有 相关 的 地 理 空间 工具 能 对 转换 得 到 的 对 象 进 
行 空 间 关系 分 析 。 有 一 个 名 叫 GeoTools 的 项 目 ， 但 它 的 组 件 和 依赖 关系 实在 太 多 ， 我 们 
不 希望 在 Spark shell 中 选用 有 太 多 复杂 依赖 的 工具 。 最 后 有 一 个 Java 版 本 的 Esri Geometry 
API， 它 的 依赖 很 少 而 且 可 以 分 析 空 间 关 系 ， 但 它 只 能 解析 GeoJSON 标准 的 一 个 子 集 ， 
此 我 们 必须 对 下 载 的 GeoJSON 数据 做 一 些 预 处 理 。 


对 数据 分 析 师 而 言 ， 没 有 工具 就 无 法 解决 问题 。 但 我 们 可 是 数据 科学 家 啊 ! 如 果 手 头 的 工 
有 具 解 决 不 了 问题 ， 那 我 们 就 自己 创建 一 个 新 工具 。 对 本 章 要 解决 的 问题 而 言 ， 为 了 解析 所 
有 的 GeoJSON 数据 ， 我 们 要 加 入 新 的 Scala 功能 ， 其 中 包括 Scala Esri Geometry API 不 能 
处 理 的 功能 。 有 许多 Scala 项 目 提 供 JSON 数据 解析 功能 ， 我 们 使 用 其 中 一 个 来 实现 这 些 
功能 。 接 下 来 几 节 中 的 代码 可 以 在 本 书 的 GitHub 资料 库 (http://github.com/jwills/geojson) 
上 找到 ， 这 些 Scala 代码 可 以 用 于 任何 地 理 空间 分 析 项 目 。 


8.4.1 认识 Esri Geometry API 


Esri 库 的 核心 数据 类 型 是 Geometry 对 象 ， 一 个 Geometry 代表 一 个 形状 和 它 所 在 的 地 理 位 
置 ，Esri 提供 了 一 组 空间 分 析 操 作用 于 分 析 几 何 图 像 及 其 关系 。 


这 些 操 作 包 括 计 算 儿 何 图 形 的 面积 、 判 断 两 个 图 形 是 否 重合 和 求 两 个 图 形 相 加 所 得 到 的 几 
何 图 形 。 

对 本 章 示例 来 讲 ， 我 们 有 表示 出 租车 乘客 下 车 地 点 (经 度 和 纬度 ) 的 几何 图 形 ， 也 有 表示 
纽约 市 行政 区 域 范围 的 几何 图 形 。 我 们 想 知道 它们 的 包含 关系 : 一 个 给 定 的 位 置 点 是 否 在 
曼哈顿 区 对 应 的 多 边 形 里 边 ? 


Esri API 有 一 个 助手 类 GeometryEngine， 它 提供 了 执行 所 有 空间 关系 操作 的 静态 方法 ， 其 
中 就 包括 contains 操作 。contains 方法 有 三 个 参数 : 两 个 Geometry 实例 参数 和 一 个 
SpatialReference 实例 参数 。SpatialReference 实例 参数 表示 用 于 地 理 空 间 计算 的 坐标 
系统 。 为 了 提高 精度 ， 我 们 需要 分 析 地 球 球体 上 的 点 映射 到 二 维 坐标 系统 后 相对 于 坐标 
平面 的 空间 关系 。 地 理 空 间 工程 师 有 一 套 标 准 的 通用 标识 符 (well-known identifier， 称 为 
WKID)， 是 一 套 最 常用 的 坐标 系统 。 这 里 我 们 将 采用 WKID 4326， 它 也 是 GPS 所 用 的 坐 
标 系统 。 


作为 Scala 开发 人 员 ， 我 们 总 是 想方设法 减少 在 Spark shell 中 进行 交互 式 数据 分 析 时 输入 
的 代码 量 。 在 Spark shell 中 可 不 像 Eclipse 和 IntelliJ 那样 能 自动 为 我 们 补 全 长 方法 名 ， 也 
不 能 像 这 些 开 发 环境 一 样 提供 语法 糖 来 辅助 看 懂 某 种 操作 。 根 据 NScalaTime 库 ( 它 定 义 
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了 包装 类 RichDateTime 和 RichDuration) 的 命名 规范 ， 我 们 将 定义 自己 的 Ritchaeometry 
类 ， 它 扩展 了 Esri Geometry 对 象 并 提供 一 些 有 用 的 辅助 方法 ， 代 码 如 下 : 


import com.esri.core.geometry.Geometry 
import com.esri.core.geometry.GeometryEngine 
import com.esri.core.geometry.SpatialReference 


class RichGeometry(val geometry: Geometry, 
val spatialReference: SpatialReference = 
SpatialReference.create(4326)) { 
def area2D() = geometry.calculateArea2D() 


def contains(other: Geometry): Boolean = { 
GeometryEngine.contains(geometry, other, spatialReference) 


} 


def distance(other: Geometry): Double = 
GeometryEngine.distance(geometry, other, spatialReference 
} 
} 


我 们 将 为 Geometry 定义 一 个 伴生 对 象 ， 它 可 以 将 Geometry 类 实例 隐 式 转换 为 RichGeometry 
类 型 ; 


object RichGeometry{ 
implicit def wrapRichGeo(g: Geometry) = { 
new RichGeometry(g) 
} 
让 


记 住 ， 要 想 这 种 转换 起 作用 ， 需 要 在 Scala 环境 中 导入 这 个 隐 式 函数 定义 ， 代 码 如 下 : 


import RichGeometry._ 


8.4.2 GeoJSON 简 介 

表示 纽约 市 行政 区 域 范围 的 数据 是 GeoJSON 格式 的 ，GeoJSON 中 核心 的 对 象 称 为 特征 ， 
特征 由 一 个 geometry 实例 和 一 组 称 为 属性 (property) 的 键 - 值 对 组 成 。 其 中 geometry 可 
以 是 点 、 线 或 多 边 形 。 一 组 特征 称 为 FeatureCollection。 现 在 我 们 把 纽约 市 行政 区 地 图 的 
GeoJSON 数据 下 载 下 来 ， 然 后 看 看 它 的 结构 。 


将 数据 下 载 到 客户 端 机 器 上 的 taxidata 目录 ， 并 将 文件 名 改 短 : 


$ wget https://nycdatastabLes.s3.amazonaws.com/2013-08-19T18:15:35.172Z/ 
nyc-borough-boundaries-polygon.geojson 
$ mv nyc-borough-boundaries-polygon.geojsonnyc-boroughs.geojson 
打开 文件 然后 观察 一 下 特征 记录 ， 注 意 属性 和 几何 图 形 对 象 。 对 本 章 示 例 而 言 ， 也 就 是 表 
示 行政 区 域 范 围 的 多 边 形 和 保护 行政 区 域名 称 及 其 他 相关 信息 的 属性 。 
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可 以 用 Esri Geometry API 解析 每 个 特征 内 部 的 几何 JSON， 但 这 个 API 不 能 帮 有 我 们 解析 id 
或 properties 字段 ，properties 字段 可 能 是 任何 JSON 对 象 。 为 了 解析 这 些 对 象 ， 要 用 到 
Scala 的 JSON 库 ， 这 样 的 库 有 很 多 。 


这 里 正好 可 以 用 Spray， 它 是 一 个 用 Scala 构建 Web 服务 的 开源 工具 包 。 通 过 隐 式 调用 
Spray-json 的 toJson 方法 ， 可 以 将 任何 Scala 对 象 转换 成 相应 的 JsValue。 也 可 以 通过 调用 
它 的 parseJson 方法 将 任何 JSON 格式 的 字符 串 转 换 成 一 个 中 间 类 型 ， 然 后 在 中 间 类 型 上 
调用 convertTo[T] 将 其 转换 成 一 个 Scala 类 型 T。Spray 内 置 了 对 常用 Scala 原子 类 型 、 元 
组 和 集合 类 型 的 转换 实现 ， 同 时 也 提供 了 一 个 格式 化 工具 ， 该 工具 可 以 定义 自 定 义 类 型 
(比如 RichGeometry) 与 JSON 之 间 相 互 转换 的 规则 。 


首先 为 表示 GeoJSON 的 特征 将 建立 一 个 case 类 。 根 据 规范 ， 特 征 是 一 个 JSON 对 象 ， 它 
必须 有 一 个 geometry 字段 和 一 个 properties 字段 。geometry 代表 GeoJSON 的 几何 类 型 ， 
properties 则 是 一 个 JSON 对 象 ， 可 以 包含 任意 个 数 和 类 型 的 键 -~ 值 对 。 特 征 也 可 以 有 一 
个 可 选 字 段 1d， 表 示 任 何 JSON 标识 符 。 我 们 的 case 类 的 Feature 将 为 每 个 JSON 字段 定 
义 相 应 的 Scala 字段 ， 同 时 它 还 提供 了 在 属性 地 图 中 查找 值 的 辅助 方法 : 


import spray.json.JsValue 


Case CLass Feature( 
val id: Option[JsValue], 
val properties: Map[String, JsValue], 
val geometry: RichGeometry) { 
def apply(property: String) = properties(property) 
def get(property: String) = properties.get(property) 
4 


我 们 使 用 RichGeometry 类 实例 来 表示 Feature 中 的 geometry 字段 。 我 们 通过 Esri Geometry 
API 的 GeoJSON 图 形 解析 函数 创建 RichGeometry 类 实例 。 


还 需要 为 GeoJson FeatureCollection 定义 一 个 case 类 。 为 了 使 FeatureCollection 类 更 易 
于 使 用 ， 实 现 apply 和 Length 这 两 个 抽象 方法 ， 就 能 让 它 扩展 IndexedSeq[Feature] 这 个 
trait。 这 样 就 能 直接 在 FeatureCollection 实例 上 调用 标准 的 Scala Collections API 的 方法 ， 
比如 map、fitlter 和 sortBy 和 等， 而 不 用 访问 底层 的 Array[Feature]。 


case class FeatureCollection(features: Array[Feature]) 
extends IndexedSeq[Feature] { 
def apply(index: Int) = features(index) 
def Length = features.Length 
} 


在 定义 表示 GeoJSON 数据 的 case 类 之 后 ， 还 需要 定义 领域 对 象 (RichGeometry、Feature 
和 FeatureCollection) 与 相应 的 JsValue 实例 之 间 相 互 转换 的 格式 。 为 此 要 创建 Scala 的 
单 例 对 象 ， 这 些 对 象 扩展 了 RootJsonFormat[T] trait， 这 个 trait 定义 了 抽象 方法 read(jsv: 
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JsValue): T 和 write(t: T): JsValue。 对 于 RichGeometry 类 ， 我 们 可 以 将 大 部 分 的 解析 和 
格式 化 逻辑 委派 给 Esri Geometry API， 也 就 是 GeometryEngine 类 的 geometryToGeoJson 和 
geometryFromGeoJson 方法 。 但 对 我 们 定义 的 case 类 ， 我 们 需要 自己 编写 格式 化 逻辑 。 下 
而 是 Feature 这 个 case 类 的 格式 化 代码 ， 其 中 包含 了 一 些 为 处 理 可 选 字段 id 的 特殊 逻辑 : 


implicit object FeatureJsonFormat extends 
RootJsonFormat[Feature] { 
def write(f: Feature) = { 
val buf = scala.collection.mutable.ArrayBuffer( 
"type" -> JsString("Feature"), 
"properties" -> JsObject(f.properties), 
"geometry" -> f.geometry.tojJson) 
f.id.foreach(v => { buf += "id" -> v}) 
JsObject(buf.toMap) 
} 


def read(value: JsValue) = { 
val jso = value.asJsObject 
val id = jso.fields.get("id") 
val properties = jso.fields("properties").asJsObject.fields 
val geometry = jso.fields("geometry").convertTo[RichGeometry] 
Feature(id, properties, geometry) 

} 

} 


FeatureJsonFormat 对 象 中 的 implicit 关键 字 是 为 了 Spray 库 可 以 在 JsValue 实例 上 调用 
convertTo[Feature] 时 进行 查找 。 可 以 在 GitHub 上 找到 GeoJSON 库 实 现 RootJsonFormat 
的 其 余 源 代码 。 


8.5 ”纽约 市 出 租车 客运 数据 的 预 处 理 


现在 我 们 手头 上 有 了 GeoJSON 和 JodaTime 库 ， 该 开始 用 Spark 对 纽约 市 出 租车 客运 数据 
进行 交互 式 分 析 了 ! 先 在 HDFS 上 建立 一 个 taxidata 目录 ， 并 将 载 客 数 据 复制 到 集群 上 ， 


$ hadoop fs -mkdir taxidata 
$ hadoop fs -put trip data 1.csv taxidata/ 


现在 启动 Spark shell， 使 用 - -jars 参数 将 要 用 到 的 库 导入 REPL 中 : 


$ mvn package 
$ spark-shell --jars target/ch08-geotime-1.0.0.jar 


Spark shell 加 载 完成 后 ， 就 可 以 像 在 其 他 章 中 一 样 ， 用 出 租车 数据 创建 一 个 RDD 并 且 检 查 
一 下 前 几 行 的 数据 : 


val taxiRaw = sc.textFile("taxidata") 
val taxiHead = taxiRaw.take(10) 
taxiHead.foreach(println) 
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我 们 来 定义 一 个 case 类 ， 它 包含 了 分 析 时 我 们 要 用 到 的 每 条 打车 记录 信息 。 类 名 叫 Trip， 
它 用 JodaTime API 中 的 DateTime 表示 上 下 车 时 间 ， 用 Esri Geometry API 中 的 Point 表示 
上 下 车 地 点 的 经 纬度 。 


import com.esri.core.geometry.Point 
import com.github.nscala_time.time.Imports._ 


case class Trip( 
pickupTime: DateTime, 
dropoffTime: DateTime, 
pickupLoc: Point, 
dropoffLoc: Point) 


为 了 从 taxiRaw RDD 中 把 数据 解析 为 我 们 定义 好 的 case 类 ， 需 要 定义 一 些 辅 助 对 象 和 辅助 方 
法 。 首 先 ， 我们 用 SimpleDateFormat 来 处 理 上 下 车 时 间 ， 并 设置 合适 的 时 间 格 式 字 符 吕 参数; 


val formatter = new SimpleDateFormat( 
"yyyy-MM-dd HH:mm:ss") 


接着 通过 Point 和 Scala 为 字符 串 提 供 的 隐 式 toDouble 方法 来 解析 上 下 车 地 点 的 经 纬度 : 


def point(longitude: String, latitude: String): Point = { 
new Point(longitude.toDouble, latitude.toDouble) 


} 


定义 完 这 些 方法 后 ， 再 来 定义 一 个 parse 函数 ， 用 于 从 taxiraw RDD 的 每 一 行 解析 出 包含 
出 租车 司机 驾照 和 Trip 实例 的 一 个 二 元 组 。 
def parse(line: String): (String, Trip) = { 

val fields = line.split(',') 

val license = fields(1) 

val pickupTime = new DateTime(formatter.parse(fields(5))) 

val dropoffTime = new DateTime(formatter.parse(fields(6))) 

val pickupLoc = point(fields(10), fields(11)) 

val dropoffLoc = point(fields(12), fields(13)) 


val trip = Trip(pickupTime, dropoffTime, pickupLoc, dropoffLoc) 
(license, trip) 


} 


可 以 用 taxiHead 数组 得 到 几 条 记录 ， 并 在 这 几 条 记录 上 测试 parse 函数 ， 以 此 来 验证 它 是 
否 能 正确 处 理 样本 数据 。 


8.5.1 大 规模 数据 中 的 非法 记录 处 理 

实际 处 理 过 大 规模 数据 集 的 人 都 知道 ， 这 些 数据 集中 总 有 几 条 记录 的 格式 不 满足 代码 的 要 
求 。 许 多 MapReduce 作业 和 Spark 处 理 管道 会 因为 无 法 正常 解析 非法 记录 而 抛 出 异常 ， 致 
使 运行 失败 。 
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我 们 可 以 逐个 排除 这 些 异 常 ， 先 检查 任务 日 志 ， 然 后 分 析 抛 出 异常 的 每 行 代码 ， 再 修改 代 
码 以 忽略 或 修正 非法 记录 。 这 个 过 程 相当 漫长 乏味 ， 而 且 常 常 像 是 在 玩 打 器 鼠 游 戏 : 刚 解 
决 好 一 个 异常 ， 分 区 中 后 面 的 某 条 记录 上 又 冒 出 了 另 一 个 异常 。 


有 经 验 的 数据 科学 家 在 处 理 新 数据 集 时 常用 的 一 个 策略 就 是 在 解析 代码 中 增加 一 个 try- 
catch 块 ， 这 样 任何 非法 记录 就 都 可 以 写 入 到 日 志 中 而 不 会 导致 整个 作业 失败 。 如 果 整 个 
数据 集中 只 有 几 条 非法 记录 ， 忽 略 掉 这 些 记录 并 继续 分 析 应 该 没 问题 。 有 了 Spark， 我 们 
甚至 可 以 做 得 更 好 : 通过 调整 解析 代码 ， 可 以 对 数据 中 的 非法 记录 进行 交互 式 分 析 ， 就 和 
其 他 分 析 一 样 轻松 。 


对 RDD 中 的 每 条 记录 ， 解 析 代 码 的 结果 可 能 有 两 个 : 要 么 成 功 解析 并 返回 一 条 有 意义 的 
结果 ， 要 么 失败 并 抛 出 异常 。 抛 出 异常 时 我 们 希望 得 到 非法 记录 本 身 和 所 抛 出 的 异常 。 当 
操作 结果 有 两 种 互 斥 的 结果 时 ， 可 以 使 用 Scala 的 Either[L，R] 类 型 来 表示 操作 的 返回 类 
型 。 对 我 们 本 章 的 问题 来 说 ，L (left) 结果 代表 成 功 解析 得 到 的 记录 ， 而 R (right) 结 
是 一 个 由 异常 和 引起 异常 的 记录 组 成 的 二 元 组 。 


酒 


safe 函数 接受 一 个 输入 类 型 为 5 => TT 的 参数 ff 并且 返回 一 个 新 的 Ss => Either[T，(S， 
Exception)] 类 型 ， 它 会 返回 调用 f 的 结果 ， 或 者 在 抛 出 异常 时 返回 包含 非法 输入 值 和 蜡 
常 本 身 组 成 的 元 组 : 


def safe[S, T](f: S => T): S => Either[T, (S, Exception)] = { 
new Function[S, Either[T, (S, Exception)]] with Serializable { 
def apply(s: S): Either[T, (S, Exception)] = { 
try { 
Left(f(s)) 
} catch { 
case e: Exception => Right((s, e)) 
} 
} 
} 
} 


现在 可 以 通过 向 safe 函数 传 入 parse 函数 (类 型 为 String => Trip) 来 得 到 一 个 更 加 安全 
的 包装 函数 safeParse， 然 后 在 taxiRaw RDD 上 调用 safeParse: 
val safeparse = safe(parse) 


val taxiparsed = taxiRaw.map(safeParse) 
taxiparsed.cache() 


如 果 想 要 知道 输入 行 中 成 功 解析 的 记录 数量 ， 可 以 用 Either[L，R] 的 isLeft 方法 并 结合 
使 用 countByValue 这 个 动作 : 


taxiparsed.map(_.isLeft). 
countByValue(). 
foreach(println) 
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(false,87) 
(true,14776529) 


情况 看 起 来 很 不 错 ， 输 入 记录 中 只 有 很 小 一 部 分 抛 出 异常 。 我 们 想 在 客户 端 检查 一 下 那些 
抛 出 的 异常 ， 并 且 搞 清楚 改进 解析 代码 能 否 正确 处 理 这 些 异 常 。 一 种 获取 非法 记录 的 方法 
就 是 联合 使 用 filter 和 map 方法 ， 代 码 如 下 : 


val taxiBad = taxiparsed. 

filter(_.isRight). 

map(_.right.get) 
另 一 种 方法 是 在 一 个 调用 中 完成 ftLter 和 map， 做 法 是 在 RDD 类 上 使 用 collect 方法， 用 
一 个 偏 函 数 (partial function) 作为 参数 。 偏 函数 包含 一 个 isDefinedAt 方法 ， 用 于 确定 函 
数 对 某 个 输入 是 否 有 定义 。 可 以 通过 扩展 PartiaLFunction[S，T] trait 来 定义 偏 函 数 ， 也 可 
以 按照 下 面 的 特殊 case 语法 来 定义 偏 函 数 : 


val taxiBad = taxiparsed.collect({ 
Case t if t.isRight => t.right.get 
}) 


if 块 决 定 偏 函数 有 定义 的 值 ，=> 之 后 的 表达 式 给 出 偏 函 数 的 返回 值 。 请 读者 注意 区 分 在 
RDD 上 应 用 偏 函数 的 coLLection 转换 和 collect() 动作 ， 后 者 没有 输入 参数 并 且 向 客户 端 
返回 RDD 的 内 容 : 


taxiBad.collect().foreach(println) 


注意 ， 大 多 数 非法 记录 都 抛 出 ArrayIndex0ut0fBoundsExceptions 异常 ， 原 因 就 是 在 执行 
前 面 的 parse 国 数 时 缺少 我 们 要 提取 的 部 分 字段 。 因 为 非法 记录 数 相对 较 少 〈 大 约 只 有 87 
条 )， 所 以 我 们 就 不 用 考虑 这 些 记 录 。 让 我 们 把 精力 放 在 那些 正确 解析 的 记录 上 上， 直接 继 
续 下 一 步 分 析 。 


val taxiGood = taxiparsed.collect({ 
case t if t.isLeft => t.left.get 


}) 


taxiGood.cache() 
即使 taxiGood RDD 中 的 记录 解析 正确 ， 它 们 也 还 可 能 存在 有 待 我 们 发 现 和 处 理 的 数据 质 
量 问题 。 为 了 找 出 这 些 遗 留 的 数据 质量 问题 ， 我 们 要 思考 每 条 正确 的 乘 车 记录 都 应 该 满足 
的 期 望 条 件 。 


考虑 到 乘 车 数据 的 时 间 特 性 ， 任 何 乘 车 记录 的 下 车 时 间 都 比 上 车 时 间 晚 是 一 个 合理 的 规 
则 。 同 样 我 们 可 以 期 望 乘 车 时 间 不 超过 几 个 小 时 ， 虽 然 确实 有 可 能 存在 这 样 耗 时 较 长 的 乘 
车 记录 ， 比 如 高 峰 期 打车 或 遇 到 事故 延误 的 情况 时 打车 要 几 个 小 时 是 可 能 的 。 将 “合理 ” 
的 打车 时 间 的 国 值 设 为 多 少 合适 ， 我 们 对 此 不 是 很 确定 。 
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5 


我 们 来 定义 一 个 辅助 方法 hours， 它 使 用 JodaTime 的 Duration 类 来 计算 一 次 打车 的 乘坐 时 
间 。 我 们 可 以 用 它 来 计算 taxiGood RDD 中 打车 记录 上 下 和 车 时 间 的 小 时 数 直方 图 : 


import org.joda.time.Duration 


def hours(trip: Trip): Long= { 
val d = new Duration( 
trip.pickupTime, 
trip.dropoffTime) 
d.getStandardHours 


} 


taxiGood.values.map(hours). 
countByValue(). 
toList. 
sorted. 
foreach(println) 

(-8,1) 

(0,14752245) 

(1,22933) 

(2,842) 

(3,197) 

(4,86) 

(5,55) 

(6,42) 

(7,33) 

(8,17) 

(9,9) 


回 


现在 看 起 来 都 不 错 ， 只 有 一 条 打车 记录 除外 ， 它 的 乘 车 时 间 为 -8 小 时 ! 难道 
到 未 来 》 中 德 治 雷 安 在 用 纽约 出 租 挣 外 快 ? 让 我 们 来 一 探究 竟 : 


电影 《 


漆 


taxiGood.values. 
filter(trip => hours(trip) == -8). 
collect(). 
foreach(println) 


这 给 出 了 那 条 奇怪 的 记录 ， 打 车 开始 于 1 月 25 日 下 午 6 点 而 在 同一 天 上 午 10 点 前 结束 。 
我 们 看 不 出 来 这 条 打车 记录 到 底 哪 里 出 了 错 。 但 是 由 于 看 起 来 只 有 一 条 记录 是 这 种 情况 ， 
直接 将 它 从 记录 中 去 掉 应 该 没 问 题 。 


现在 观察 剩余 的 那些 小 时 数 大 于 零 的 记录 ， 绝 大 多 数 出 租车 乘坐 记录 看 起 来 不 超过 3 个 小 
时 。 我 们 将 对 taxiGood RDD 进行 过 滤 ， 只 需要 关心 “典型 ”的 乘坐 记录 的 分 布 而 暂时 名 
略 那些 异常 情况 ; 

val taxiClean = taxiGood.filterf{ 


case (lic, trip) => { 
val hrs = hours(trip) 


A 


146 | 第 8 章 


0 <= hrs && hrs < 3 
} 
} 


8.5.2 地理 空间 分 析 

现在 我 们 从 地 理 空 间 角度 来 检查 出 租车 数据 。 对 每 次 乘 车 记录 ， 我 们 各 用 一 对 经 纬度 来 表 
示 乘 客 的 上 车 地 点 和 下 车 地 点 。 我 们 想 确定 这 两 对 经 纬度 分 别 属于 哪个 行政 区 ， 并 且 要 找 
出 那些 起 点 不 在 纽约 五 个 行政 区 之 内 的 记录 。 比 如 ， 如 果 是 从 曼哈顿 打车 到 纽约 国际 机 
场 ， 这 条 记录 应 该 是 合法 的 ， 虽 然 它 的 终点 并 不 在 五 个 行政 区 之 内 。 但 如 果 打 车 的 终点 是 
南极 ， 我 们 就 有 理由 相信 记录 是 非法 的 并 且 应 该 将 其 排除 在 分 析 之 外 。 


为 了 分 析 行 政 区 ， 需 要 将 前 面 下 载 的 GeoJSON 数据 加 载 并 存储 在 nyc-boroughs.geojson 文 
件 中 。scala.io 包 中 的 Source 类 可 以 帮助 我 们 轻松 把 文本 文件 或 URL 中 的 数据 作为 一 个 
String 读 取 到 客户 端 中 : 


val geojson = scala.io.Source. 
fromFile("nyc-boroughs .geojson"). 
mkString 


现在 需要 用 到 本 章 前 面 讨论 过 的 GeoJSON 解析 工具 ， 通 过 在 Spark shell 中 使 用 Spray 和 
Esri， 就 可 以 将 geojson 解析 为 FeatureCollection case 类 : 


import com.cloudera.science.geojson._ 
import GeoJsonprotocol._ 
import spray.json._ 


val features = geojson.parseJson.convertTo[FeatureCollection] 


我 们 建立 一 个 简单 的 地 点 来 测试 Esri Geometry API 的 功能 并 验证 该 API 能 正确 找 出 该 地 点 
所 属 行政 区 : 


val p = new Point(-73.994499, 40.75066) 
val borough = features.find(f => f.geometry.contains(p)) 


在 使 用 出 租车 乘 车 数据 上 的 features 之 前 ， 要 思考 一 下 怎样 组 织 地 理 空间 数据 最 有 效 。 一 
个 方法 是 研究 专门 为 地 理 空 间 查询 而 优化 的 数据 结构 ， 比 如 四 又 树 ， 然 后 编写 自己 的 实现 
代码 。 但 我 们 先 看 一 下 是 否 能 想 出 一 个 快速 的 启发 式 算法 以 省 掉 这 部 分 工作 。 


find 方法 将 遍历 FeatureCollection 直到 找到 一 个 图 形 包含 给 定 经 纬度 Point 的 特征 为 止 。 
大 部 分 打车 记录 的 上 车 点 和 下 车 点 都 在 曼哈顿 地 区 ， 因 此 如 果 代 表 曼 哈 顿 的 地 理 空 间 特 
征 在 集合 中 早点 出 现 ， 大 部 分 的 find 方法 调用 将 可 以 较 快 地 返回 。 我 们 可 以 把 每 个 特征 
的 boroughCode 属性 作为 排序 的 键 ，1 代表 曼哈顿 ，5 代表 史 坦 顿 岛 。 对 每 个 行政 区 特征 内 
部 ， 我 们 希望 最 大 的 多 边 形 相关 的 特征 排 在 较 小 的 多 边 形 之 前 ， 因 为 打车 时 大 部 分 起 点 或 
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终点 会 落 在 每 个 行政 区 中 “ 较 大 ”的 地 区 。 然 后 根据 新 政 区 代码 和 每 个 特征 的 几何 图 形 的 
area2D() 大 小 来 对 特征 进行 排序 应 该 是 个 不 错 的 策略 ; 


val areaSortedFeatures = features.sortBy(f => { 
val borough = f("boroughCode" ) .convertTo[Int] 
(borough, -f.geometry.area2D()) 

}) 


注意 这 里 是 根据 area2D() 取 负 值 之 后 排序 的 ， 因 为 我 们 想 让 最 大 的 多 边 形 排 在 最 前 惠 
Scala 默认 是 从 小 到 大 排序 。 


现在 可 以 将 frs 序列 中 排 好 序 的 特征 广播 到 集群 上 ， 然 后 写 一 个 函数 利用 这 些 特征 来 判断 
下 车 点 落 在 五 个 行政 区 的 哪 一 个 中 。 


而 


val bFeatures = sc.broadcast(areaSortedFeatures ) 


def borough(trip: Trip): Option[String] = { 
val feature: Option[Feature] = bFeatures.value.find(f => { 
f.geometry.contains(trip.dropoffLoc) 
}) 
feature.map(f => { 
f("borough").convertTo[String] 
}) 
} 


如 果 没 有 哪个 特征 包含 打车 的 dropoff_loc，optf 的 值 将 为 None， 在 None 上 调用 map 的 结 
果 还 是 None。 我 们 可 以 在 taxiclean RDD 中 的 打车 记录 上 应 用 该 国 数 从 而 创建 一 个 按 行 
区 统计 的 直方 图 。 


taxiClean.values. 
map(borough). 
countByValue(). 
foreach(println) 


(Some(Queens) ,672135) 
(Some(Manhattan) ,12978954) 
(Some(Bronx),67421) 
(Some(Staten Island),3338) 
(Some(Brooklyn) ,715235) 
(None ,338937) 


像 我 们 预期 的 那样 ， 绝 大 多 数 打车 记录 的 终点 在 曼哈顿 地 区 ， 在 史 坦 顿 名 的 相对 较 少 。 终 


点 落 在 五 个 行政 区 之 外 的 乘 车 记录 数 有 点 让 人 吃 售 ， 而 None 记录 的 数量 比 终点 在 布朗 克 斯 
区 的 记录 数 要 多 得 多 。 现 在 我 们 从 数据 中 取出 几 条 这 种 记录 : 


taxiClean.values. 
filter(t => borough(t).isEmpty). 
take(10).foreach(println) 


打印 出 这 些 记 录 ， 会 发 现 它们 大 部 分 的 起 点 和 终点 都 落 在 点 (0.0，0.0) 上 ， 表 明 这 些 记 
录 的 起 点 和 终点 数据 缺失 。 由 于 这 些 数 据 对 我 们 的 分 析 帮 助 不 大 ， 应 该 把 这 种 例外 情况 过 


诺 掉 : 


def hasZzero(trip: Trip): Boolean = { 
val zero = new Point(0.0, 0.0) 
(zero.equals(trip.pickupLoc) || zero.equals(trip.dropoffLoc)) 


} 


val taxiDone = taxiClean.filterf{ 
case (lic, trip) => !hasZzero(trip) 
}.cache() 


现在 重新 在 taxiDone RDD 上 运行 分 析 ， 得 到 如 下 结果 : 


taxiDone.values. 
map(borough ) . 
CountByVaLue( ) . 
foreach(printtLn) 


(Some(Queens) ,670996 ) 
(Some(Manhattan) ,12973001) 
(Some(Bronx) ,67333) 
(Some(Staten IsLand) ,3333) 
(Some(Brooklyn),714775) 
(None ,65353) 


过 尖 掉 起 点 或 终点 为 零 的 记录 后 ， 输 出 行政 区 的 记录 只 是 减少 了 一 些 ， 但 None 对 应 的 记录 


大 部 分 被 去 掉 了 ， 剩 下 的 那些 终点 落 在 郊区 的 记录 条 数 现在 看 起 来 比较 合理 了 。 


8.6 ”基于 Spark 的 会 话 分 析 


前 面 提 到 的 一 个 目标 是 要 研究 出 租车 乘客 下 车 区 域 与 出 租车 等 待 下 一 单 生意 的 等 待 时 间 之 


所 有 载 客 记 录 按 一 个 司机 一 条 记录 进行 汇总 ， 然 后 把 该 班次 中 的 载 客 记录 按时 间 排 序 。 


序 让 我 们 可 以 比较 一 次 载 客 记录 的 下 车 时 间 和 下 一 次 载 客 的 上 车 时 间 。 这 种 对 单个 实体 在 


间 的 关系 。 现 在 taxiDone RDD 包含 了 每 个 出 租车 司机 的 所 有 载 客 数据 ， 但 这 些 记 录 分 布 
在 不 同 的 分 区 中 。 要 计算 一 次 载 客 结束 到 下 次 载 客 开始 的 时 间 间 隔 ， 需 要 把 一 个 班次 中 的 


排 


不 同时 间 的 一 系列 事件 的 分 析 称 为 会 话 分 析 (sessionization) ， 它 经 常用 于 对 Web 日 志 做 


网 站 用 户 行为 分 析 。 


会 话 分 析 是 发 掘 数 据 价 值 和 开发 数据 产品 的 一 种 非常 强大 的 技术 ， 可 以 帮助 人 们 更 好 地 
进行 决策 。 比 如 Google 的 自动 拼写 纠正 引擎 就 是 基于 用 户 活动 会 话 构建 的 。Google 将 每 
天 Google 网 站 上 发 生 的 每 个 事件 (搜索 、 点 击 、 地 图 访问 等 ) 用 日 志 记 录 下 来 ， 并 在 这 


些 记录 上 构建 会 话 。 为 了 找 出 可 能 的 拼写 纠正 项 ，Google 对 这 些 会 话 进行 处 理 并 找 则 


如 


下 描述 的 情形 : 用 户 输 入 查询 却 没 有 做 任何 点 击 ， 儿 秒 钟 以 后 该 用 户 又 输入 一 个 稍微 不 同 
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的 查询 ， 然 后 点 击 查询 结果 ， 然 后 就 离开 Google 了 。 找 到 上 述 情形 之 后 ，Google 计算 每 
两 个 这 样 的 查询 的 模式 出 现 的 次 数 ， 如 果 次 数 足够 频繁 (比如 如 果 我 们 发 现 每 次 输入 查询 
“untied stats” 儿 秒 后 输入 查询 “united states”)， 那 么 就 可 以 假设 第 二 个 查询 是 第 一 个 查询 
的 拼写 纠正 项 。 


这 个 分 析 利 用 日 志 中 展现 出 的 人 类 行为 模式 来 构建 拼写 纠正 引擎 ， 这 个 引擎 比 任何 基于 字 
典 的 引擎 都 要 强大 得 多 。 该 引擎 可 以 用 于 任何 语言 的 拼写 检查 ， 并 且 可 以 用 于 纠正 那些 没 
有 在 任何 字典 中 出 现 的 词 (比如 某 个 创业 公司 的 名 字 ) ， 甚 至 可 以 用 于 纠正 类 似 “untied 
stats” 这 样 两 个 单词 拼写 错误 的 查询 。Google 给 出 推荐 搜索 项 和 相关 搜索 项 时 也 使 用 了 
类 似 的 技术 ，Google 还 将 这 个 技术 用 于 确定 哪些 查询 应 该 返回 一 个 OneBox 结果 ， 对 
OneBox 类 型 的 搜索 结果 ， 结 果 直 接 显示 在 查询 页 面 上 ， 这 样 用 户 就 不 需要 继续 点 击 进 入 
不 同 页 面 。OneBox 已 经 应 用 到 Google 天 气 、 体 育 赛 事 得 分 、 地 址 和 许多 其 他 类 型 的 查 
询 中 。 


现在 每 个 实体 发 生 的 所 有 事件 是 散布 在 RDD 的 各 个 分 区 中 的 ， 因 此 我 们 需要 按时 间 顺 序 
将 相关 时 间 放 在 一 起 。 下 一 节 将 演示 如 何 使 用 Spark 1.2 中 引入 的 高 级 分 析 功能 来 高 效 地 构 
造 和 分 析 会 话 。 


构建 会 话 : 基于 Spark 的 二 级 排序 

在 Spark 中 创建 会 话 ， 最 简单 的 方法 就 是 根据 标识 符 做 groupBy， 然 后 根据 时 间 惟 标识 符 
对 打 乱 次 序 后 的 事件 数据 排序 。 如 果 每 个 实体 只 有 少数 事件 ， 这 种 方法 还 是 比较 行 得 通 
的 。 然 而 ， 这 个 方法 的 扩展 能 力 十 分 有 限 ， 因 为 它 需 要 将 每 个 实体 的 所 有 事件 同时 都 放 入 
内 存 ， 因 此 随 着 每 个 实体 的 事件 数量 越 来 越 大 ， 所 占用 的 内 存 将 会 越 来 越 大 。 我 们 需要 一 
种 构建 会 话 的 方法 ， 它 不 需要 在 排序 时 将 一 个 实体 的 所 有 事件 同时 放 入 内 存 。 


在 MapReduce 中 ， 可 以 通过 二 级 排序 (secondary sort) 来 构建 会 话 ， 做 法 是 创建 一 个 由 
标识 符 和 时 间 惟 组 成 的 组 合 键 ， 根 据 该 组 合 键 对 所 有 记录 排序 ， 然 后 用 一 个 定制 的 分 区 器 
(partitioner) 和 分 组 函数 保证 相同 标识 符 对 应 的 所 有 记录 都 在 同一 个 结果 分 区 中 。 幸 运 的 
是 ，Spark 也 支持 这 种 排序 模式 ， 为 此 我 们 可 以 使 用 Spark 的 repartitionAndSortWithinPa 
rtitions 转换 。 


在 GitHub 上 的 资料 库 中 ， 我 们 提供 了 一 个 可 以 完成 这 项 工作 的 groupByKeyAndSortValues 
转换 的 实现 。 由 于 该 功能 大 部 分 和 本 章 要 讨论 的 概念 没关系 ， 所 以 这 里 就 不 讨论 其 细节 
了 。 目 前 Spark JIRA SPARK-3655 正在 向 Spark 核心 中 加 入 类 似 的 转换 功能 。 


转换 需要 四 个 参数 : 


。 要 操作 的 键 - 值 对 的 RDD，; 
。 从 一 个 输入 值 中 提取 二 级 排序 键 的 函数 ， 
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。 可 选 的 拆 分 国 数 ， 将 相同 键 对 应 的 数据 拆 分 成 多 个 组 〈 对 应 本 章 我 们 讨论 的 情况 则 是 将 
相同 司机 的 载 客 记录 分 成 多 个 班次 ) ; 
。 输出 RDD 中 的 分 区 个 数 。 


这 里 我 们 的 二 级 排序 键 为 上 车 时 间 : 
def secondaryKeyFunc(trip: Trip) = trip.pickupTime.getMillis 


我 们 需要 确定 一 个 标准 来 判定 某 个 班次 的 结束 时 间 和 新 班次 的 开始 时 间 。 和 本 章 中 其 他 选 
择 〈 比 如 将 超过 三 小 时 的 乘 车 记录 去 掉 ) 一 样 ， 选 择 标准 有 些 主观 成 分 ， 并 且 我 们 需要 明 
白 这 种 选择 可 能 影响 后 续 分 析 的 结果 。 尝 试 不 同 的 拆 分 标准 并 观察 这 些 标 准 对 结果 的 影响 
是 个 不 错 的 做 法 ， 特 别 是 在 会 话 分 析 的 早期 阶段 。 确 定 了 合理 的 、 分 割 两 个 班次 的 时 间 窗 
口 标准 后 ， 就 要 坚持 这 个 标准 。 这 里 重要 的 是 要 做 出 选择 ， 虽 然 有 些 主观 。 作 为 数据 科学 
家 ， 我 们 主要 关注 事物 随时 间 的 变化 ， 只 有 保持 数据 和 指标 的 定义 不 变 ， 才 能 对 较 长 时 间 
内 的 数据 进行 有 效 的 比较 。 

我 们 先 来 试 试用 四 小 时 作为 换班 标准 ， 这 时 如 果 连 续 载 客 时 间 累 计 超过 四 小 时 ， 则 认为 后 
续 载 客 属于 新 班次 。 两 个 班次 中 间 的 间 隐 时 间 可 以 看 成 是 司机 换班 时 的 休息 时 间 ， 该 时 间 
段 不 载 客 。 


def spLit(t1: Trip, t2: Trip): BooLean = { 
val pl = t1.pickupTime 
val p2 = t2.pickupTime 
val d = new Duration(p1, p2) 
d.getStandardHours >= 4 


} 


有 了 二 级 排序 键 和 班次 拆 分 函数 ， 我 们 就 可 以 进行 分 组 和 排序 了 。 由 于 这 个 操作 会 触发 乱 
序 和 较 大 规模 的 计算 ， 并 且 我 们 将 多 次 使 用 计算 结果 ， 所 以 有 必要 将 结果 缓存 起 来 : 


val sessions = groupByKeyAndSortValues( 
taxiDone, secondaryKeyFunc, split, 30) 
sessions.cache() 


结果 是 RDD[(String，List[Trip])]， 这 里 所 有 载 客 记录 都 属于 同一 个 司机 的 同一 班次 ， 并 
且 这 些 载 客 记录 是 按时 间 排 序 的 。 


执行 会 话 分 析 管道 是 一 个 代价 很 高 的 操作 ， 并 且 对 数据 建立 会 话 之 后 的 结果 往往 对 我 们 可 
能 要 执行 的 多 种 不 同 分 析 都 非常 有 用 。 如 果 这 份 数据 在 后 续 的 分 析 中 还 要 继续 使 用 ， 或 者 
其 他 数据 科学 家 也 要 用 到 这 份 数 据 ， 那 么 可 以 对 大 规模 数据 进行 一 次 性 的 会 话 分 析 处 理 ， 
然后 把 结果 写 入 到 HDFS 上 ， 以 便 用 于 回答 一 些 不 同 的 问题 。 这 样 一 次 性 会 话 分 析 的 昂贵 
代价 就 可 以 分 摊 到 多 个 分 析 问 题 ， 也 不 失 为 一 种 不 错 的 策略 。 统 一 的 会 话 分 析 也 有 利于 在 
整个 数据 科学 小 组 范围 内 实施 统一 的 会 话 定义 标准 ， 使 用 统一 的 会 话 标准 则 有 助 于 对 结果 
进行 对 等 比较 。 
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现在 我 们 已 经 准备 就 绕 ， 可 以 开始 对 会 话 数据 进行 分 析 从 而 得 出 某 个 区 域 出 租车 司机 在 凶 
客 之 后 等 待 下 一 位 乘 车 上 车 的 平均 接 单 等 待 时 间 了 。 我 们 将 定义 一 个 boroughDuration 方 
法 ， 它 接受 两 个 Trip 实例 作为 参数 ， 计 算出 第 一 个 Trip 的 区 域 ， 以 及 第 一 个 Trip 的 下 车 
时 间 和 第 二 个 Trip 的 上 车 时 间 的 Duration， 代 码 如 下 : 


def boroughDuration(t1: Trip, t2: Trip)= { 
val b = borough(t1) 
val d = new Duration( 
t1.dropoffTime, 
t2.pickupTime) 
(b, d) 


我 们 要 将 这 个 新 函数 应 用 在 所 有 会 话 RDD 中 连续 两 个 载 客 记录 上 。 虽 然 这 里 我 们 可 以 自 
己 写 一 个 for 循环 ， 但 也 可 以 用 Scala Collections API 提供 的 sliding 这 一 较为 函数 式 的 
方法 : 


val boroughDurations: RDD[(Option[String], Duration)] = 
sessions.values.flatMap(trips => { 
val iter: Iterator[Seq[Trip]] = trips.sliding(2) 


val viter = iter.filter(_.size == 2) 
viter.map(p => boroughDuration(p(0), p(1))) 
}).cache() 


在 sliding 方法 的 结果 上 调用 filter 保证 忽略 掉 只 有 一 次 载 客 记录 的 会 话 。 在 会 话 之 上 进 
行 flatMap 操作 的 结果 是 一 个 RDD[(0ption[String]，Duration)]， 我 们 现在 可 以 检查 一 下 
蕊 的 内 容 。 首 先 应 该 验证 大 部 分 的 等 单 时 间 应 该 是 非 负 的 : 


bdrdd.values.map(_.getStandardHours). 
countByValue(). 
toList. 
sorted. 
foreach(println) 
(2272) 
(Lt) 
(0,13367875) 
(1,347479) 
(2,76147) 
(3,19511) 


只 有 少数 几 条 记录 的 等 单 时 间 为 负 ， 我 们 进一步 仔细 检查 这 些 记录 ， 也 没 发 现 产 生 这 些 错 


误 数 据 的 规律 。 在 分 析 等 单 时 间 分 布 时 可 以 不 考虑 这 些 记 录 。 可 以 用 Spark 的 StatCounter 
类 帮 有 我 们 计算 等 单 时 间 的 分 布 ，StatCounter 类 我 们 之 前 用 过 ， 代 码 如 下 : 


import org.apache.spark.util.StatCounter 


boroughDurations .fiLLter{ 
case (b, d) => d.getMillis >= 0 
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}.mapValues(d => { 
val s = new StatCounter() 
s.merge(d.getStandardSeconds) 
}). 
reduceByKey((a, b) => a.merge(b)).collect().foreach(println) 


(Some(Bronx), (count: 56951, mean: 1945.79, 
stdev: 1617.69, max: 14116, min: 0)) 
(None, (count: 57685, mean: 1922.10， 
stdev: 1903.77, max: 14280, min: 0)) 
(Some(Queens),(count: 557826, mean: 2338.25, 
stdev: 2120.98, max: 14378.000000, min: 0)) 
(Some(Manhattan), (count: 12505455, mean: 622.58, 
stdev: 1022.34, max: 14310, min: 0)) 
(Some(Brooklyn),(count: 626231, mean: 1348.675465, 
stdev: 1565.119331, max: 14355, min: 0)) 
(Some(Staten Island),(count: 2612, mean: 2612.24, 
stdev: 2186.29, max: 13740, min: 0.000000)) 


数据 显示 曼哈顿 地 区 的 等 单 时 间 最 短 ， 只 有 10 分钟 多 一 点 儿 ， 这 在 我 们 的 意料 之 中 。 布 
和 鲁 克 林地 区 的 等 单 时 间 超过 芝 哈 顿 地 区 的 两 倍 ， 乘 客 下 车 点 在 史 丹 顿 品 地 区 的 次 数 相对 较 
少 ， 司 机 的 平均 等 单 时 间 约 为 45 分 钟 。 


正如 数据 所 示 ， 根 据 乘 客 目 的 地 的 不 同上 视 性 地 对 待 乘客 对 出 租车 司机 有 很 大 的 经 济 利益 
油 励 :如果 乘 客 在 史 丹 顿 岛 下 车 ， 司 机 就 要 空 帮 很 长 一 段 时 间 。 纽 约 市 出 租车 与 豪华 车 协 
会 多 年 来 伦 了 很 大 精力 来 整治 这 种 歧视 性 的 做 法 ， 由 于 乘客 目的 地 的 原因 而 拒载 的 行为 一 
经 发 现 就 要 面临 罚款 。 对 乘客 目的 地 很 近 的 打车 数据 进行 分 析 应 该 是 比较 有 意思 的 ， 如 有 果 
乘客 的 目的 地 很 近 ， 司 机 和 乘客 可 能 会 就 在 哪里 下 车 发 生 和 争执 。 


8.7 小结 


设想 一 下 ， 我 们 可 以 把 本 章 所 用 到 的 技术 用 于 开发 一 个 应 用 ， 这 个 应 用 可 以 根据 当前 的 交 
通 模式 和 数据 中 最 佳 候 客 地 点 的 历史 记录 来 向 出 租车 司机 建议 最 佳 的 候 客 地 点 。 还 可 以 从 
乘客 的 角度 进行 分 析 : 给 定 当 前 时 间 、 地 点 和 天 气 信息 ， 我 站 在 街头 在 五 分 钟 之 内 招呼 到 
出 租车 的 概率 有 多 大 ?这 类 信息 可 以 加 入 Google Maps 这 类 应 用 中 ， 以 帮助 旅客 确定 何 时 
出 发 及 采用 何 种 交通 工具 。 


利用 Esri API 工具 ， 可 以 对 来 自 JVM 系 语言 的 地 理 空间 数据 进行 交互 式 分 析 。 这 样 的 工 
具有 好 几 个 ，Esri API 是 其 中 之 一 ， 另 一 个 是 GeoTrellis。GeoTrellis 是 一 个 用 Scala 写 的 
地 理 空间 分 析 工 具 ， 它 的 设计 目标 之 一 就 是 易于 在 Spark 中 使 用 。 第 三 个 是 基于 Java 的 
GIS 工具 GeoTools。 
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基于 蒙特 卡 罗 模 拟 的 金融 风险 评估 


作者 : Sandy Ryza 


如 果 你 想 了 解 地 质 学 ， 就 研究 地 震 。 如 果 你 想 了 解 经 济 学 ， 就 研究 经 济 萧条 。 


Ben Bernanke 


风险 价值 (Value at Risk，VaR) 是 一 个 金融 统计 概念 ， 它 度量 在 一 定 条 件 下 的 期 望 损失 
大 小 。 自 1987 年 美国 股灾 之 后 ，VaR 迅速 疲 行 并 被 金融 服务 机 构 广 泛 使 用 ， 在 金融 服务 
机 构 的 管理 中 发 挥 了 举足轻重 的 作用 ， 比 如 可 以 用 它 计 算 金 融 机 构 申请 对 应 的 信用 等 级 所 
需要 持 有 的 现金 量 。 除 此 之 外 ，VaR 还 可 用 于 帮助 人 们 更 好 地 理解 大 量 投资 组 合 的 风险 特 
征 ， 也 可 用 于 在 交易 执行 之 前 提供 快速 决策 依据 。 


评估 VaR 的 方法 极为 复杂 ， 其 中 许多 涉及 随机 条 件 下 的 市 场 模拟 ， 这 需要 进行 大 量 计算 。 
这 些 方法 背后 采用 了 一 种 称 为 蒙特 卡 罗 模 拟 (Monte Carlo simulation) 的 技术 。 蒙 特 卡 罗 
模拟 中 给 出 数 千 个 其 至 数 百 万 个 随机 的 市 场 状况 ， 并 观察 这 些 状 况 对 投资 组 合 的 影响 。 由 
于 Spark 本 身 具有 高 并 行 性 ， 它 非常 适合 进行 蒙特 卡 罗 模 拟 。Spark 可 以 利用 数 千 个 CPU 
核 来 运行 随机 试验 并 汇总 结果 。 作 为 通用 数据 转换 引擎 ，Spark 也 擅长 执行 模拟 前 后 的 预 
处 理 和 后 处 理 任务 。 我 们 可 以 用 它 把 原始 的 金融 数据 转换 成 执行 模拟 所 需 的 模型 参数 ， 同 
样 可 以 用 它 对 模拟 结果 进行 即时 分 析 (ad-hoc analysis)。 相 对 于 传统 的 HPC 环境 而 言 ， 
Spark 简单 的 编程 模型 使 研发 周期 大 大 缩短 。 


现在 我 们 给 出 “期 望 损失 ”的 规范 定义 。VaR 是 对 投资 风险 的 一 个 简单 度量 ， 它 合理 地 佑 
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计 了 一 个 投资 组 合 在 未 来 一 段 时 间 内 的 最 大 可 能 损失 。 统 计量 VaR 由 三 个 参数 来 确定 : 投 
资 组 合 、 时 间 周 期 、 置 信 水 平 。 若 在 95% 的 置信 水 平 下 ， 某 投资 组 合 未 来 两 周 的 VaR 值 
为 一 百 万 美元 ， 则 表示 该 投资 组 合 在 两 周 后 损失 超过 一 百 万 美元 的 概率 为 5%。 


本 章 还 会 介绍 另 一 个 相关 的 统计 量 ， 我 们 称 之 为 条 件 风险 价值 (Conditional Value at Risk， 
CVaR)， 有 时 也 叫 作 期 望 损失 (Expected Shortfal) 。CVaR 不 久 前 由 巴塞 尔 银行 业 监管 委 
员 会 提出 ， 它 是 一 个 比 VaR 更 好 的 风险 度量 指标 。 统 计量 CVaR 的 三 个 参数 和 VaR 相同 ， 
但 CVaR 表示 的 是 期 望 损失 而 不 是 截止 值 (cutoff value) 。 在 置信 水 平 为 95% 时 ， 某 投 党 
组 合 未 来 两 周 的 CVaR 值 为 五 百 万 美元 ， 则 表示 该 投资 组 合 在 最 坏 的 5% 情况 下 平均 损失 
为 五 百 万 美元 。 


为 了 对 VaR 进行 建 模 ， 我 们 先 介绍 一 些 新 的 概念 、 方 法 以 及 工具 包 。 有 具体 来 说 ， 我 们 将 
介绍 核 密度 估计 、 如 何 用 breeze-viz 工具 包 进 行 绘图 、 多 元 正 态 分 布 (multivariate normal 
distribution) 采样 和 Apache Commons Math 工具 包 的 统计 函数 。 


9.1 术语 


本 音 将 涉及 儿 个 金融 领域 的 术语 ， 现 在 我 们 给 出 它们 的 简单 定义 。 


。 人 金融 工具 
可 交易 的 资产 ， 比 如 债券 、 贷 款 、 期 权 或 股票 。 金 融 工 具 在 任意 时 刻 都 可 以 用 一 个 值 来 
表示 ， 也 就 是 资产 的 卖 出 价 。 

。 投资 组 合 


金融 机 构 持 有 的 金融 工具 的 组 合 。 


。 回报 

一 段 时 间 内 金融 工具 或 投资 组 合 的 价值 变化 。 
。 损失 

负 的 回报 。 
。 指数 


一 个 假设 的 金融 工具 组 合 。 比 如 纳 斯 达 克 综 合 指数 包含 了 美国 和 全 球 其 他 国家 主要 公司 
的 约 3000 支 股票 和 金融 工具 。 


。 市 场 因素 
给 定时 间 点 的 宏观 金融 环境 指标 ， 比 如 美国 的 国内 生产 总 值 (GDP) 指标 就 是 一 个 市 场 
因素 ， 又 如 美元 对 欧元 的 汇率 也 是 一 个 市 场 因 素 。 我 们 也 常 把 市 场 因素 简称 为 因素 。 


9.2 VaR 计 算 方 法 


目前 为 止 ， 我 们 对 VaR 的 定义 都 比较 开放 。 估 计 该 统计 量 需 要 对 投资 组 合 的 工作 原理 及 其 
回报 的 概率 分 布 进行 建 模 。 金 融 机 构 采 用 了 许多 不 同 的 方法 计算 VaR， 然 而 这 些 计算 方法 
都 是 来 源 于 几 种 通用 的 方法 。 


9.2.1 方差 - 协 方 差 法 
方差 - 协 方差 (Variance-Covariance) 是 最 简单 的 方法 ， 其 计算 复杂 度 也 最 小 。 该 模型 假 
设 每 个 金融 工具 的 回报 服从 正 态 分 布 ， 这 样 就 能 估算 出 VaR 值 。 


9.2.2 历史 模拟 法 


历史 模拟 法 (Historical Simulation) 直接 使 用 历史 数据 的 分 布 推断 风险 值 ， 而 不 依赖 概要 
统计 量 。 比 如 ， 为 确定 一 个 投资 组 合 在 置信 水 平 为 95% 时 的 VaR， 历 史 数据 模拟 方法 会 
参考 该 资产 过 去 100 天 的 市 场 表 现 并 以 其 中 表现 倒数 第 五 的 那 一 天 的 回报 作为 对 VaR 的 估 
计 。 该 方法 的 一 个 缺点 是 历史 数据 是 有 限 的， 不 能 包括 那些 没 发 生 的 假设 情况 。 我 们 所 用 
的 投资 组 合 工具 的 历史 数据 可 能 没有 包含 崩盘 的 情况 ， 但 我 们 其 实 也 希望 在 这 些 情况 下 能 
够 对 投资 组 合 的 表现 进行 建 模 。 已 有 的 技术 可 以 使 历史 数据 模拟 方法 对 这 些 问 题 具 有 和 鲁 棒 
性 ， 比 如 在 数据 中 引入 “市 场 冲击 ”， 这 里 我 们 将 不 做 介绍 。 


9.2.3 ”蒙特 卡 罗 模 拟 法 
本 章 接 下 来 的 部 分 将 重点 介绍 蒙特 卡 罗 模 拟 。 蒙 特 卡 罗 模 拟 通过 模拟 随机 条 件 下 的 投资 组 
合 ， 来 减少 前 面 介绍 的 几 种 方法 中 的 假设 因素 所 带 来 的 影响 。 当 我 们 不 能 得 到 概率 分 布 的 
解析 解 时 ， 通 常 可 以 评估 其 概率 密度 函数 (Probability Density Function，PDF)， 方法 是 对 
服从 该 概率 分 布 的 简单 随机 变量 进行 重复 采样 ， 并 对 采样 结果 进行 汇总 统计 。 更 一 般 地 ， 
该 方法 : 


。 定义 市 场 条 件 与 每 个 金融 工具 的 回报 之 间 的 关系 ， 该 关系 表现 为 拟 合 历史 数据 的 模型 ， 

。 为 那些 容易 采样 的 市 场 条 件 定义 分 布 ， 这 些 分 布 也 拟 合 历史 数据 ， 

。 在 随机 市 场 条 件 下 进行 试验 ， 

。 计算 每 次 试验 的 投资 组 合 总 体 损失 ， 用 这 些 损失 定义 损失 的 经 验 分 布 ， 即 如 果 运 行 100 
次 试验 来 估算 置信 水 平 为 95% 时 的 VaR， 我 们 会 选择 试验 中 第 五 大 的 损失 值 ， 若 要 计 
算 置信 水 平 为 95% 时 的 CVaR， 我 们 需要 计算 最 坏 的 五 次 试验 的 平均 损失 。 

当然 ， 蒙 特 卡 罗 方法 也 不 是 完美 的 。 我 们 对 产生 试验 条 件 的 模型 和 推断 金融 工具 表现 的 模 

型 进行 了 简单 假设 ， 因 此 相应 得 到 的 分 布 的 准确 度 没有 基于 变量 - 协 变量 和 历史 数据 的 评 

估 方 法 高 。 
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9.3 我 们 的 模型 


蒙特 卡 罗 风 险 模 型 通常 把 每 个 金融 工具 的 回报 分 解 为 一 组 市 场 因素 的 组 合 。 常 用 的 市 场 因 
素 包 括 标 普 500 指数 、 美 国 GDP 和 货币 汇率 等 。 接 着 我 们 需要 一 个 模型 根据 这 些 市 场 条 
件 来 预测 每 个 金融 工具 的 回报 。 我 们 将 在 模拟 中 使 用 简单 的 线性 模型 。 根 据 之 前 对 回报 的 
定义 ， 一 个 因素 的 回报 为 给 定时 间 段 内 市 场 因 素 值 的 变化 。 举 个 例子 ， 如 果 标 普 500 指数 
在 一 段 时 间 内 从 2000 点 涨 到 2100 点 ， 那 么 回报 为 100 点 。 对 这 些 因素 的 回报 进行 简单 转 
换 可 以 得 到 一 组 特征 。 也 就 是 说 ， 给 定 试验 1 的 市 场 因 素 向 量 m,， 通 过 某 个 转换 函数 9 得 
到 特征 向 量 太太 向 量 的 长 度 可 能 和 向 量 m 的 长 度 不 一 样 。 


f=$(m,) 
为 每 个 金融 工具 训练 一 个 模型 ， 该 模型 给 每 个 特征 赋予 一 个 权重 。 下 面 给 出 了 回报 的 计算 
公式 ， 其 中 尺 , 为 试验 1 中 工具 i 的 回报 ,cj 为 金融 工具 i 的 截 距 项 (intercept term)，w 为 
特征 j 在 金融 工具 i 上 的 回归 权重 ,为 特征 j 在 试验 t 中 产生 的 随机 值 : 


上 述 公式 表示 ， 每 个 金融 工具 的 回报 等 于 所 有 市 场 因素 特征 的 回报 与 金融 工具 的 权重 的 乘 
积 之 和 。 我 们 可 以 用 历史 数据 来 拟 合 每 个 金融 工具 的 线 型 模型 (也 称 为 线性 回归 )。 如 果 
VaR 的 时 间 跨 度 为 两 周 ， 回 归 问 题 把 每 个 间隔 两 周 的 时 间 点 当 作 具有 标号 的 样本 点 。 


需要 指出 的 是 ， 我 们 也 可 选用 更 复杂 的 模型 。 比 如 可 以 不 用 线性 模型 ， 而 是 用 回归 树 技 术 
或 在 模型 中 显 式 地 加 入 特定 领域 的 知识 。 
有 了 从 市 场 因 素 中 计算 金融 工具 损失 的 模型 之 后 ， 还 需要 一 个 模拟 市 场 因素 的 方法 。 我 们 简 


单 假设 市 场 因素 回 报 服 从 正 态 分 布 。 为 了 考虑 市 场 因素 之 间 的 相关 性 (比如 纳 斯 达 克 指 数 下 
跌 时 道琼斯 指数 也 很 可 能 跟着 下 跌 ) ， 我 们 使 用 多 元 正 态 分 布 ， 其 协 方差 矩阵 是 非 对 角 阵 : 


m 一 MN (41,5) 
这 里 4 代表 因素 回报 经 验 平 均 向 量 ， 代表 市 场 因 素 回 报 经 验 协 方差 矩阵 。 
与 前 面 讨论 的 一 样 ， 在 模拟 市 场 因素 时 ， 我 们 也 可 以 选择 更 加 复杂 的 方法 。 可 以 假定 每 个 
市 场 因 素 服从 不 同 的 分 布 类 型 ， 比 如 采用 尾部 更 厚 的 分 布 方式 。 
9.4 获取 数据 


要 找到 大 量 格式 规整 的 历史 价格 数据 并 非 易 事 ， 但 我 们 可 以 在 Yahoo! 上 下 载 到 大 量 CSV 
格式 的 股票 数据 。 下 面 的 脚本 使 用 一 系列 REST 调用 来 下 载 纳 斯 达 克 指 数 里 所 有 股票 的 历 
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史 数 据 ， 并 将 其 存放 在 stocks/ 目录 下 。 该 脚本 在 本 书 GitHub 资料 库 的 risk/data 目录 下 : 


$ ./downLoad-aLL-symbotLs .sh 


我 们 也 需要 这 份 历史 数据 的 风险 因素 ， 包 括 标 普 500 和 纳 斯 达 克 指 数值 ， 还 有 30 年 期 国 
债 和 原油 价格 数据 。 标 普 500 和 纳 斯 达 克 指 数 数据 同样 可 以 从 Yahoo! 上 下 载 到 : 


$ mkdir factors/ 
$ ./download-symbol.sh SNP factors 
$ ./download-symbol.sh NDX factors 


国债 和 原油 价格 数据 需要 从 Investing.com 复制 / 粘贴 过 来 。 


9.5 ”数据 预 处 理 


然而 我 们 的 数据 来 源 各 不 相同 ， 格 式 也 不 一 样 。 比 如 ， 从 Yahoo! 获取 的 GOOGL 股票 数 
据 的 前 几 行 如 下 : 


Date ,Open,High,Low,Close,Volume,Adj Close 

2014-10-24,554.98,555.00,545.16,548.90,2175400,548.90 
2014-10-23,548.28,557.40,545.50,553.65,2151300,553.65 
2014-10-22,541.05,550.76,540.23,542.69,2973700,542.69 
2014-10-21,537.27,538.77,530.20,538.03,2459500,538.03 
2014-10-20,520.45,533.16,519.14,532.38,2748200,532.38 


Investing.com 原油 价格 历史 数据 格式 如 下 : 


Oct 24, 2014 81.01 81.95 81.95 80.36 272.51K -1.32% 
Oct 23, 2014 82.09 80.42 82.37 80.05 354.84K 1.95% 
Oct 22, 2014 80.52 82.55 83.15 80.22 352.22K -2.39% 
Oct 21, 2014 82.49 81.86 83.26 81.57 297.52K 0.71% 
Oct 20, 2014 81.91 82.39 82.73 80.78 301.04K -0.93% 
Oct 19, 2014 82.67 82.39 82.72 82.39 - 0.75% 


对 每 个 数据 源 的 每 个 金融 工具 和 市 场 因 素 ， 我 们 可 以 用 (date，closing price) 元 组 列表 
来 描述 。 可 以 用 Java 的 SimpLeDateFormat 来 解析 从 Investing.com 获取 的 数据 中 的 日 期 ， 
代码 如 下 : 


import java.text.SimpleDateFormat 


val format = new SimpleDateFormat("MMM d，yyyy") 
format.parse("Oct 24, 2014") 
res0: java.util.Date = Fri Oct 24 00:00:00 PDT 201 


3000 个 金融 工具 加 4 个 市 场 因 素 的 历史 数据 量 较 小 ， 可 以 在 本 地 进行 读 取 和 处 理 。 即 使 对 于 
涉及 几 十 万 个 金融 工具 和 几 千 个 市 场 因素 的 较 大 型 的 模拟 来 说 也 是 如 此 。 然 而 ， 当 模拟 真正 
运行 起 来 时 ， 每 个 工具 都 需要 进行 大 量 的 计算 ， 这 时 我 们 就 需要 Spark 这 类 分 布 式 系 统 了 。 
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现在 从 本 地 硬盘 读 取 Investing.com 全 部 的 历史 数据 ， 代 码 如 下 : 


import com.github.nscala_ time.time.Imports._ 
import java.io.File 
import scala.io.Source 


def readInvestingDotComHistory(file: File): 
Array[(DateTime, Double)] = { 
val format = new SimpleDateFormat("MMM d, yyyy") 
val lines = Source.fromFile(file).getLines().toSeq 
lines.map(line => { 
val cols = line.split('\t') 
val date = new DateTime(format.parse(cols(0))) 
val value = cols(1).toDouble 
(date, value) 
}).reverse.toArray 


} 


和 第 8 章 一 样 ， 我 们 使 用 JodaTime 及 其 Scala 包装 类 NscalaTime 来 表示 日 期 ， 将 
SimpLeDateFormat 的 输出 Date 对 象 包装 成 JodaTime 的 DateTime 实例 。 


现在 读 取 全 部 的 Yahoo! 历史 数据 ， 代 码 如 下 : 


def readYahooHistory(file: File): Array[(DateTime, Double)] = { 
val format = new SimpleDateFormat("yyyy-MM-dd") 
val lines = Source.fromFile(file).getLines().toSeq 
lines.tail.map(line => { 
val cols = line.split(',') 
val date = new DateTime(format.parse(cols(0))) 
val value = cols(1).toDouble 
(date, value) 
}).reverse.toArray 


} 


注意 Lines.tail 用 于 去 掉 标题 行 。 现 在 我 们 加 载 所 有 数据 并 过 滤 掉 历史 数据 不 足 5 年 的 金 
融 工 具 ， 代 码 如 下 : 


val start = new DateTime(2009, 10, 23, 0, 0) 
val end = new DateTime(2014, 10, 23, 0, 0) 


val files = new File("data/stocks/").listrFiles() 
val rawStocks: Seq[Array[(DateTime, Double)]] = 
files.flatMap(file => { 


try { 
Some(readYahooHistory(file)) 
} catch { 
Case e: Exception => None 
} 


}).filter(_.size >= 260*5+10) 


val factorsPrefix = "data/factors/" 
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val factors1: Seq[Array[(DateTime, Double)]] = 
Array("crudeoil.tsv", "us30yeartreasurybonds.tsv"). 
map(x => new File(factorsPrefix + x)). 
map(readInvestingDotComHistory) 

val factors2: Seq[Array[(DateTime, Double)]] = 
Array("SNP.csv", "NDX.csv"). 
map(x => new File(factorsPprefix + x)). 
map(readYahooHistory) 


由 于 不 同 金融 工具 的 交易 日 期 可 能 不 相同 ， 或 者 由 于 其 他 原因 数据 中 有 些 值 缺失 ， 因 此 我 


束 时 间 的 情况 ， 我 们 用 附近 的 日 期 填充 即 可 ， 代 码 如 下 : 


def trimToRegion(history: Array[(DateTime，DoubtLe)]， 


start: DateTime, end: DateTime): Array[(DateTime, Double)] = { 


var trimmed = history. 
dropWhile(_. 1 < start).takeWhile(_. 1 <= end) © 
if (trimmed.head. 1 != start) { 
trimmed = Array((start, trimmed.head. 2)) ++ trimmed 
} 
if (trimmed.last. 1 != end) { 
trimmed = trimmed ++ Array((end, trimmed.last. 2)) 


} 


trimmed 


} 
@ 隐 式 地 利用 ScalaTine 的 运算 符 重 载 来 比较 日 期 。 


门 有 必要 对 不 同 的 历史 数据 进行 规范 化 处 理 。 首 先 需 要 将 时 间 序 列 数据 统一 到 同一 个 时 间 
区 间 。 然 后 对 有 缺失 的 数据 ， 需 要 为 其 填充 数据 。 对 于 时 间 序 列 数 据 中 缺失 开始 时 间 和 结 


对 于 一 个 时 间 序 列 的 数据 存在 缺失 值 的 情况 ， 我 们 使 用 该 工具 上 一 个 交易 日 的 收盘 价 来 代 


禁 。 不 幸 的 是 ，Scala 集合 并 没有 提供 现成 的 方法 帮 有 我 们 完成 这 个 任务 ， 


己 写 ， 具体 代码 如 下 : 
import scala.collection.mutable.ArrayBuffer 


def fillInHistory(history: Array[(DateTime, Double)], 


start: DateTime, end: DateTime): Array[(DateTime, Double)] = { 


var cur = history 

val filled = new ArrayBuffer[(DateTime, Double)]() 
var curDate = start 

while (curDate < end) { 


if (cur.tail.nonEmpty && cur.tail.head. 1 == curDate) { 
cur = cur.tail 


} 
filled += ((curDate, cur.head. 2)) 
curDate += 1.days 


// 跳 过 周末 
if (curDate.dayOfWeek().get > 5) curDate += 2.days 


所 以 我 们 还 得 


自 
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filled.toArray 
} 


将 trimToRegion 和 fitllInHistory 函数 应 用 在 数据 上 : 


val stocks: Seq[Array[Double]] = rawStocks. 
map(trimToRegion(_, start, end)). 
map(fillInHistory(_, start, end)) 


val factors: Seq[Array[Double] = (factors1 ++ factors2). 
map(trimToRegion(_, start, end)). 
map(fillInHistory(_, start, end)) 


stocks 的 每 个 元 素 都 是 由 某 支 股票 在 不 同时 间 点 的 价格 组 成 的 数组 。factors 结果 和 
stocks 一 样 。 这 些 数组 的 长 度 应 该 都 相等 ， 我 们 可 以 用 如 下 代码 进行 验证 ， 


(stocks ++ factors).forall(_.size == stocks(0).size) 
res17: Boolean = true 


9.6 ”确定 市 场 因 素 的 权重 


回顾 一 下 ，VaR 值 代表 一 个 给 定时 间 段 内 的 可 能 损失 大 小 。 我 们 关心 的 不 是 金融 工具 的 绝 
对 价格 ， 而 是 在 一 段 时 间 内 金融 工具 价格 的 变化 。 在 本 章 的 计算 中 ， 我 们 将 时 间 跨 度 设 为 
两 周 。 下 面 的 函数 利用 了 Scala 集合 的 stiding 方法 将 价格 的 时 间 序 列 转换 成 间隔 为 2 周 
的 价格 移动 交 共 序 列 。 注 意 ， 由 于 金融 数据 中 不 考虑 周末 ， 所 以 时 间 窗 口 为 10 而 不 是 14: 


def twoWeekReturns(history: Array[(DateTime, Double)]) 
: Array[Double] = { 
history.sliding(10). 
map(window => window.last. 2 - window.head. 2). 
toArray 


} 


val stocksReturns = stocks.map(twoWeekReturns) 
val factorsReturns = factors.map(twoWeekReturns) 


有 了 回报 的 历史 数据 ， 我 们 就 可 以 回 过 来 看 看 如 何 训练 模型 来 预测 金融 工具 回报 。 我 们 希 
望 有 一 个 模型 可 以 根据 两 周 内 市 场 因素 的 回报 来 预测 每 个 金融 工具 在 相同 时 间 段 内 的 回 
报 。 为 了 简化 问题 ， 我 们 使 用 线性 回归 模型 。 


金融 工具 的 回报 与 市 场 因素 之 间 可 能 是 非 线 性 关系 ， 为 了 对 这 个 情况 进行 建 模 ， 我 们 可 以 
在 模型 中 加 入 一 些 附加 的 特征 。 对 市 场 因素 回报 进行 非 线 性 变换 可 以 得 到 这 些 特征 。 这 里 
我 们 尝试 对 每 个 市 场 因素 增加 两 个 附加 特征 ， 市 场 因素 的 平方 以 及 平方 根 。 由 于 应 变量 仍 
然 是 特征 的 线性 函数 ， 从 这 个 意义 上 讲 ， 我 们 的 模型 仍然 是 线性 模型 ， 只 不 过 有 些 特 征 正 
好 由 市 场 因 素 的 非 线 性 函数 确定 而 已 。 请 记 住 我 们 这 里 采用 的 这 种 特征 转换 只 是 为 了 说 明 
问题 ， 而 在 金融 建 模 实 践 中 ， 进 行 预测 时 采用 的 做 法 可 能 并 不 相同 。 
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def factorMatrix(histories: Seq[Array[Double]]) 
: Array[Array[Double]] = { 
val mat = new Array[Array[Double]](histories.head.length) 
for (i <- 0 until histories.head.length) { 
mat(i) = histories.map(_(i)).toArray 
} 
mat 


} 


val factorMat = factorMatrix(factorsReturns) 


现在 我 们 可 以 处 理 附加 的 特征 了 ， 代 码 如 下 : 


def featurize(factorReturns: Array[DoubLe]): Array[Double] = { 
val squaredReturns = factorReturns. 
map(x => math.signum(x) * x * x) 
val squareRootedReturns = factorReturns. 
map(x => math.signum(x) * math.sqrt(math.abs(x))) 
squaredReturns ++ squareRootedReturns ++ factorReturns 


} 


val factorFeatures = factorMat.map(featurize) 


然后 拟 合 一 个 线性 模型 ， 代 码 如 下 : 


import org.apache.commons.math3.stat.regression.OLSMultipleLinearRegression 


def linearModel(instrument: Array[Double], 
factorMatrix: Array[Array[Double]]) 
: OLSMultipleLinearRegression = { 
val regression = new OLSMultipleLinearRegression() 
regression.newSampleData(instrument, factorMatrix) 
regression 


val models = stocksReturns.map(linearModel(_, factorFeatures)) 


为 了 节省 篇 幅 我 们 省 略 了 分 析 过 程 ， 但 在 这 个 点 上 ， 对 于 一 个 实际 的 应 用 处 至 
(pipeline) ， 有 必要 了 解 模型 对 数据 的 拟 合 程度 。 因 
是 时 间 窗 口 是 交 全 的 ， 所 以 这 些 样本 很 有 可 能 是 自 相 关 的 (autocorrelated)。 这 就 是 说 ， 如 
果 采 用 像 R 之 类 的 度量 ， 我 们 很 可 能 对 模型 的 拟 合 程度 作出 乐观 估计 。Breusch-Godfrey 
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虽然 由 于 每 个 金融 工具 都 对 应 一 次 回归 ， 我 们 这 里 执行 了 许多 次 回归 ， 但 是 特征 的 数量 
和 每 次 回归 的 数据 量 是 其 实 是 很 小 的 。 因 此 ， 在 建立 线性 模型 的 过 程 中 我 们 没 必要 使 用 
Spark 进行 分 布 式 运算 ， 只 要 用 Apache Commons Math 工具 包 提 供 的 普通 最 小 二 乘 回归 
功能 就 足够 了 。 虽 然 现在 我 们 的 市 场 因素 数据 是 由 历史 数据 组 成 的 seq (每 个 Seq 都 是 由 
(DateTime，Double) 二 元 组 组 成 的 数组 ) ， 但 0LSMultipleLinearRegression 要 求 数据 为 样 
本 点 数组 (对 我 们 的 示例 来 说 就 是 2 周 的 时 间 段 )， 所 以 我 们 需要 对 市 场 因素 和 矩阵 进行 变 
换 ， 代 码 如 下 : 


A 


有 管道 


为 数据 点 是 从 时 间 序 列 上 得 到 的 ， 特 别 
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测试 (http://en.wikipedia.org/wiki/Breusch-Godfrey_test) 是 对 自 相 关 性 的 影响 进行 评估 的 
一 种 标准 测试 。 这 种 快速 评估 模型 的 方法 就 是 将 时 间 序 列 拆 分 成 两 个 集合 。 拆 分 时 要 注意 
取出 的 点 处 于 中 间 位 置 ， 数 据点 要 足够 多 ， 要 保证 前 面 一 组 的 后 面 的 点 与 后 面 一 组 的 前 面 
的 点 不 是 自 相 关 的 。 然 后 在 这 个 集合 上 进行 模型 训练 ， 在 另 一 个 集合 上 检验 误差 。 


可 以 用 OLSMultipleLinearRegression 和 的 estimateRegressionParameters 方法 得 到 每 个 金融 
工具 的 模型 参数 ， 有 具体 代码 如 下 : 


val factorWeights = models.map(_.estimateRegressionparameters()) 
.toArray 


现在 我 们 得 到 了 一 个 1867 x 8 的 矩阵 ， 甚 中 每 一 行 代表 一 个 金融 工具 的 模型 参数 集合 ( 
些 参数 可 能 是 系数 、 权 重 、 协 变量 、 回 归 因 子 等 ) 。 


9.7 采样 


有 了 将 市 场 因 素 回报 映射 到 金融 工具 回报 的 模型 之 后 ， 接 下 来 可 以 讨论 怎样 生成 随机 回报 
因素 来 模拟 市 场 条 件 。 也 就 是 说 ， 我 们 需要 确定 因素 回报 向 量 的 一 个 概率 分 布 并 从 该 分 布 
上 采样 。 数 据 实际 服从 什么 分 布 呢 ? 为 了 回答 此 类 问题 ， 有 必要 先 对 数据 进行 可 视 化 。 连 
续 概 率 分 布 的 可 视 化 可 以 采用 密度 曲线 ， 它 给 出 了 在 分 布 区 间 上 的 概率 密度 函数 PPF。 由 
于 我 们 不 知道 数据 服从 的 分 布 ， 所 以 并 没有 一 个 公式 可 以 帮助 我 们 计算 任意 点 上 的 概率 密 
度 。 但 我 们 可 以 使 用 一 种 称 为 核 密 度 估计 (kernel density estimation) 的 技术 来 粗略 估计 概 
率 密度 。 不 严格 地 讲 ， 核 密度 估计 是 一 种 对 直方 图 进行 平滑 处 理 的 方法 。 它 以 每 个 数据 点 
为 中 心 建立 一 个 概率 分 布 (通常 为 正 态 分 布 )， 因 此 一 个 两 周 回报 样本 的 集合 将 有 200 个 
正 态 分 布 ， 每 个 分 布 的 总 体 均 值 都 不 一 样 。 为 了 评估 在 给 定点 的 概率 密度 ， 可 以 计算 所 有 
正 态 分 布 在 这 个 点 上 的 概率 密度 ， 然 后 取 平 均值 。 核 密度 曲线 的 平滑 程度 取决 于 它 的 带宽 
(bandwidth) ， 也 就 是 每 个 正 态 分 布 的 标准 差 。 本 书 的 GitHub 资料 库 上 提供 了 一 个 核 密 度 
估计 的 实现 ， 既 可 以 用 于 RDD， 也 可 用 于 本 地 集合 。 为 了 节省 篇 幅 我 们 这 里 不 再 资 述 。 


而 的 代码 绘制 了 样本 


[Ee 


breeze-viz 是 一 个 Scala 工具 ， 我 们 可 以 用 它 轻松 地 绘制 简单 图 形 。 下 
集 的 密度 曲线 : 


import com.cloudera.datascience.risk.KernelDensity 
import breeze.plot._ 


def plotDistribution(samples: Array[Double]) { 
val min = samples.min 
val max = samples.max 
val domain = Range.Double(min, max, (max - min) / 100). 
toList.toArray 
val densities = KernelDensity.estimate(samples, domain) 


val f = Figure() 
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val p = f.subplot(0) 
p += plot(domain, densities) 
p.xlabel = "Two Week Return ($)" 
p.ylabel = "Density" 

} 


plotDistribution(factorReturns(0)) 
plotDistribution(factorReturns(1)) 


图 9-1 显示 了 国库 券 历 史 价 格 两 周 回报 的 概率 分 布 (概率 密度 函数 )。 
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图 9-1: 国债 两 周 回报 分 布 


图 9-2 显示 了 原油 两 周 回报 的 概率 分 布 。 
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我 们 将 为 每 个 因素 回报 拟 合 一 个 正 态 分 布 。 有 时 候 值得 多 花 些 精力 寻找 一 个 更 符合 实际 情 
况 的 分 布 ， 比 如 尾部 更 厚 的 分 布 ， 能 更 好 地 拟 合 数据 。 但 这 里 为 了 市 省 篇 幅 ， 就 不 深入 介 
绍 模拟 的 调 优 方法 了 。 


最 简单 的 因素 回报 采样 方法 是 用 一 个 正 态 分 布 拟 合 每 个 因素 ， 然 后 对 这 个 分 布 进行 独立 
采样 。 然 而 ， 这 里 我 们 忽略 了 市 场 因 素 常常 是 相关 的 这 个 实际 情况 。 如 果 标 普 指 数 下 跌 ， 
道琼斯 指数 也 可 能 跟着 下 跌 。 如 果 没 有 考虑 到 这 些 相 关 性 ， 我 们 得 到 的 风险 预测 (risk 
profile) 的 噪声 将 比 实 际 情况 要 大 。 我 们 的 市 场 因 素 是 否 相 关 呢 ? Commons Math 中 的 皮 
尔 森 相关 系数 实现 可 以 帮 我 们 回答 这 个 问题 ， 代 码 如 下 : 


import org.apache.commons.math3.stat.correlation.PearsonsCorrelation 


val factorCor = 

new PearsonsCorrelation(factorMat).getCorrelationMatrix().getData() 
println(factorCor.map(_.mkString("\t")).mkString("\n")) 
1.0 -0.3483 0.2339 0.3975 ©@ 
-0.3483 1.0 -0.219 -0.4429 
0.2339 -0.2198 1.0 0.3349 
0.3975 -0.4429 0.3349 1.0 


@ 为 了 统一 格式 ， 我 们 只 保留 了 小 数 点 后 的 部 分 位 数 。 
由 于 非 对 角 线 上 有 非 零 值 ， 所 以 看 来 市 场 因素 之 间 存 在 相关 性 。 


多 元 正 态 分 布 

要 考虑 因素 之 间 的 相关 性 ， 可 以 使 用 多 元 正 态 分 布 。 多 元 正 态 分 布 的 每 个 样本 是 一 个 向 
量 ， 在 其 他 所 有 维度 的 值 都 确定 的 情况 下 ， 对 于 给 定 维度 的 值 服从 正 态 分 布 。 但 是 ， 多 个 
变量 的 联合 分 布 并 不 是 独立 分 布 。 


多 元 正 态 分 布 的 参数 为 对 应 每 个 维度 上 的 均值 向 量 和 一 个 和 矩阵， 该 矩阵 描述 了 任意 两 个 维 
度 之 间 的 协 方差 。 对 于 NN 维 的 情况 ， 由 于 我 们 要 得 到 任何 两 个 维度 之 间 的 协 方差 ， 所 以 协 
方差 矩阵 为 Y 乘 W。 如 果 协 方差 矩阵 为 对 角 阵 ， 多 元 正 态 分 布 就 退化 成 独立 分 布 ， 但 如 果 
非 对 角 线 上 存在 非 零 值 ， 那 么 表示 相应 的 两 个 变量 之 间 存在 相关 性 。 


VaR 相关 文献 常常 提 到 因素 权重 转换 步 又 ， 经 过 权重 转换 ， 因 素 之 间 的 相关 性 被 去 掉 
了 ， 这 样 就 可 以 进行 采样 了 。 这 里 常常 用 到 柯 列 斯 基 分 解 (Cholesky Decomposition) 或 
特征 分 解 (Eigendecomposition)。 这 里 我 们 可 以 直接 调用 Apache Commons Math 工具 包 的 
MultivariateNormalDistribution， 它 在 底层 使 用 了 特征 分 解 。 


为 了 在 本 章 数 据 上 拟 合 一 个 多 元 正 态 分 布 ， 我 们 首先 要 得 到 其 样本 均值 和 协 方差 : 


import org.apache.commons.math3.stat.correlation.Covariance 


val factorCov = new Covariance(factorMat).getCovarianceMatrix(). 
getData() 


val factorMeans = factorsReturns . 
map(factor => factor.sum / factor.size).toArray 


接 下 来 以 上 面 得 到 的 均值 和 协 方差 为 参数 创建 一 个 分 布 : 
import org.apache.commons.math3.distribution.MultivariateNormalDistribution 


val factorsDist = new MultivariateNormalDistribution(factorMeans, 
factorCov) 


从 分 布 中 对 市 场 条 件 进行 一 系列 采样 : 


factorsDist.sample() 
res1: Array[Double] = Array(2.6166887901169384, 2.596221643793665， 
1.4224088720128492，55.00874247284987) 


factorsDist.sample() 


res2: Array[Double] = Array(-8.622095499198096，-2.5552498805628256 ， 
2.3006882454319686，-75.4850042214693) 


9.8 运行 试验 


讨论 完 每 个 金融 工具 的 模型 和 市 场 因素 回报 的 采样 过 程 ， 现 在 就 可 以 开始 运行 实际 的 试 


验 了 。 由 于 运行 试验 是 个 计算 密集 型 的 任务 ， 所 以 我 们 最 终 还 是 要 用 Spark 来 对 其 进行 并 
行 化 。 在 每 次 试验 中 ， 我 们 希望 提取 一 组 风险 因素 样本 ， 用 该 样本 预测 每 个 金融 工具 的 回 


报 ， 然 后 将 所 有 回报 相 加 得 到 总 体 试验 损失 。 为 了 使 分 布 具有 代表 性 ， 我 们 需要 运行 数 千 


次 甚至 是 数 百 万 次 试验 。 


有 几 种 方式 可 以 对 模拟 进行 并 行 化 ， 比 如 可 以 对 试验 进行 并 行 化， 也 可 以 对 金融 工具 进行 
并 行 化 ， 或 者 同时 对 二 者 进行 并 行 化 。 如 有 果 同 时 进行 并 行 化 ， 我 们 要 创建 一 个 金融 工具 
的 RDD 和 一 个 试验 参数 的 RDD， 然 后 用 第 卡尔 转换 cartesian 来 生成 一 个 包含 所 有 组 合 
的 RDD。 这 种 方法 最 通用 ， 但 有 两 个 缺点 : 第 一 ， 该 方法 需要 显 式 地 创建 试验 参数 RDD， 


而 这 其 实 可 以 通过 设置 随机 种 子 来 避免 ,第 二 ， 它 需要 进行 乱 序 操作 。 


对 金融 工具 进行 并 行 化 的 代码 如 下 : 


val randomSeed = 1496 

val instrumentsRdd = ... 

def triaLLossesForInstrument(seed: Long, instrument: Array[Double]) 
: Array[(Int, Double)] = { 


} 
instrumentsRdd.flatMap(trialLossesForInstrument(randomSeed, _)). 
reduceByKey(_ + _) 
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采用 这 种 方式 时 ， 数 据 按照 金融 工具 对 RDD 进行 分 区 ， 对 每 个 金融 工具 进行 fLatMap 转 
换 就 可 以 得 到 每 次 试验 的 损失 。 对 所 有 任务 采用 相同 随机 种 子 意味 着 生成 的 试验 序列 是 相 
同 的 。reduceByKey 操作 把 同一 个 试验 的 对 应 的 所 有 损失 都 汇总 在 一 起 。 这 种 方式 的 缺点 
是 它 也 需要 进行 乱 序 ， 数 据 量 量 级 为 0(|instruments| * |trials|)。 


本 章 中 的 几 千 个 金融 工具 的 模型 数据 非常 小 ， 所 以 可 以 直接 放 入 每 个 执行 器 (executor) 
的 内 存 里 。 粗 略 估算 一 下 ， 即 使 有 一 百 万 个 工具 和 数 百 个 因素 ， 执 行 器 的 内 存 也 能 存 下 。 
一 百 万 个 工具 乘 以 五 百 个 因素 ， 再 乘 以 每 个 因素 权重 所 需 的 八 个 字 节 ， 总 共 约 4GB ， 对 当 
今 大 多 数 集群 机 器 而 言 ， 将 这 些 数 据 存放 到 每 个 执行 器 的 内 存 里 是 完全 可 行 的 。 因 此 我 们 
应 该 将 金融 工具 数据 设 为 广播 变量 ， 每 个 执行 器 都 有 完整 的 金融 工具 数据 的 好 处 在 于 ， 每 
次 实验 的 总 体 损 失 在 单 台 机 器 上 就 能 算出 ， 这 样 就 没 必要 在 机 器 之 间 进 行 汇总 。 

对 于 按 实验 进行 分 区 的 方法 (我们 将 使 用 这 种 方法 ) ， 首 先 需 要 生成 一 个 随机 种 子 组 成 的 
RDD， 我 们 希望 每 个 分 区 的 随机 种 子 都 不 一 样 ， 这 样 每 个 分 区 将 产生 不 同 的 实验 ， 代 码 
如 下 : 


val parallelism = 1000 
val baseSeed = 1496 


val seeds = (baseSeed until baseSeed + parallelism) 
val seedRdd = sc.parallelize(seeds, parallelism) 


随机 数 生成 是 一 个 耗 时 的 过 程 ， 也 是 CPU 密集 型 的 任务 。 预 先生 成 一 组 随机 数 然 后 在 多 
个 作业 中 使 用 通常 效率 较 高 ， 但 本 章 不 使 用 这 个 方法 。 由 于 蒙特 卡 罗 实 验 假定 随机 数 服从 
独立 分 发 ， 因 此 为 了 符合 该 假设 ， 不 能 在 同一 个 作业 中 使 用 相同 的 随机 数 。 如 果 要 采用 事 
先生 成 随机 数 的 方法 ， 我 们 只 需 将 代码 中 的 paraLteLize 方法 替换 为 textFile 并 加 载 事先 
生成 好 的 randomNumbersRdd 文件 即 可 。 


对 每 个 随机 种 子 ， 我 们 希望 生成 一 组 实验 参数 并 观察 这 些 参数 对 所 有 金融 工具 的 影响 。 我 
们 从 底层 开始 ， 先 写 一 个 函数 计算 单个 实验 中 单个 工具 的 回报 ， 只 需 应 用 之 前 训练 好 的 
每 个 工具 对 应 的 线性 模型 即 可 。 由 于 回归 参数 的 instrument 数组 包含 了 截 中 (intercept 
term) ， 所 以 它 的 长 度 比 trial 数组 大 1: 


def instrumentTrialReturn(instrument: Array[Double], 

trial: Array[DoubLe]): Double = { 

var instrumentTrialReturn = instrument(0) 

var i=0 

while (i < trial.length) { 上 
instrumentTrialReturn += trial(i) * instrument(i+1) 
i+= 1 

} 

instrumentTrialReturn 


} 
@ 因为 此 处 对 性 能 有 很 大 影响 ， 所 以 使 用 while 循环 ， 而 没有 用 Scala 的 函数 式 编程 。 
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接着 ， 只 需 将 所 有 工具 的 回报 相 加 即 可 得 到 单个 实验 的 全 体 回报 : 


def trialReturn(trial: Array[DoublLe]， 
instruments: Seq[Array[Double]]): Double = { 
var totalReturn = 0.0 
for (instrument <- instruments) { 
totalReturn += instrumentTrialReturn(instrument, trial) 


} 


totalReturn 


} 


最 后 ， 我 们 需要 在 每 个 任务 中 生成 一 系列 实验 。 由 于 随机 数 的 选择 占 该 过 程 的 很 大 一 部 
分 ， 所 以 有 必要 选用 更 强大 的 随机 数 生 成 器 ， 这 样 就 不 容易 产生 重复 的 随机 数 。Commons 
Math 包 中 Mersenne twister 的 实现 很 适合 ， 根 据 前 面 提 到 的 方法 ， 我 们 使 用 它 对 多 元 正 态 
分 布 进行 采样 。 注 意 ， 为 了 将 生成 的 因素 回报 转换 成 模型 中 所 需 的 特征 格式 ， 我 们 在 生成 
的 因素 回报 上 应 用 了 刚 定 义 的 featurize 方法 : 


import org.apache.commons .math3.random.MersenneTwiLster 


def trialReturns(seed: Long, numTrials: Int， 
instruments: Seq[Array[Double]], factorMeans: Array[Double], 
factorCovariances: Array[Array[Double]]): Seq[Double] = { 
val rand = new MersenneTwister(seed) 
val multivariateNormal = new MultivariateNormalDistribution( 
rand, factorMeans, factorCovariances) 


val trialReturns = new Array[Double](numTrials) 
for (i <- 0 until numTrials) { 
val trialFactorReturns = multivariateNormal.sample() 
val trialFeatures = featurize(trialFactorReturns) 
trialReturns(i) = trialReturn(trialFeatures, instruments) 
} 
trialReturns 


} 


现在 准备 工作 就 绪 ， 我 们 可 以 用 上 述 函 数 计算 出 一 个 RDD， 这 个 RDD 的 每 个 元 素 代表 一 
次 实验 的 总 体 回报 。 由 于 金融 工具 数据 ( 即 每 个 因素 对 每 个 工具 的 权重 矩阵 ) 很 大 ， 我 们 
将 它 设 为 广播 变量 。 这 样 每 个 执行 器 都 只 要 对 它 进 行 一 次 反 序列 化 即 可 。 


val numTrials = 10000000 
val bFactorWeights = sc.broadcast(factorWeights) 


val trials = seedRdd.fLatMap( 
trialReturns(_, numTrials / parallelism, 
bFactorWeights.value, factorMeans, factorCov)) 


现在 回顾 一 下 ， 我 们 对 这 些 数字 所 做 的 所 有 操作 都 是 为 了 计算 VaR。trials 现在 代表 了 投 
资 组 合 回报 的 经 验 分 布 。 要 计算 置信 水 平 为 95% 时 的 VaR ， 需 要 找到 在 最 差 的 5% 和 最 好 
的 5% 的 情况 下 的 回报 。 有 了 经 验 分 布 ， 要 得 到 这 两 个 回报 ， 只 要 找到 经 验 分 布 上 的 一 个 
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实验 ， 对 于 该 实验 ， 有 5% 的 实验 回报 比 它 低 并 且 有 95% 的 实验 的 回报 都 比 它 高 。 在 驱动 


程序 中 用 takeOrdered 行动 从 所 有 实验 中 取出 最 差 的 5% 就 可 以 达到 这 个 目的 。 这 个 表现 


最 差 的 实验 回报 集合 中 的 最 高 回报 即 为 我 们 要 求 的 VaR。 


def fivepercentVaR(trials: RDD[Double]): Double = { 
val topLosses = trials.takeOrdered(math.max(trials.count().toInt / 20, 1)) 
topLosses.last 


} 


val valueAtRisk = fivepercentVaR(trials) 
valueAtRisk: Double = -1752.8675055209305 


用 几乎 完全 一 样 的 方法 也 能 求 出 CVaR。 不 过 求 CVaR 时 我 们 取 最 差 的 5% 的 实验 
合 的 平均 回报 ， 而 不 是 其 中 的 最 高 回报 。 


def fivepercentCVaR(trials: RDD[Double]): Double = { 
val topLosses = trials.takeOrdered(math.max(trials.count().toInt / 20, 1)) 
topLosses.sum / topLosses.Length 


} 


val conditionalValueAtRisk = fivepercentVaR(trials) 
conditionalValueAtRisk: Double = -2353.5692728118033 


9.9 回报 分 布 的 可 视 化 


回报 集 


除了 计算 一 定 置 信 水 平 下 的 VaR 之 外 ， 我 们 还 可 以 用 它 更 全 面 地 了 解 回归 分 布 。 


回报 服 


从 正 态 分 布 吗 ? 在 极端 情况 下 回报 会 不 稳定 吗 ? 与 我 们 之 前 为 每 个 市 场 因 素 做 过 的 方法 类 
似 ， 我 们 可 以 用 核 密度 估计 来 估算 联合 概率 分 布 的 概率 密度 函数 〈 见 图 9-3)。 再 次 说 明 ， 


分 布 式 估算 核 密度 的 代码 (采用 RDD) 可 以 参考 本 书 随 附 的 GitHub 资料 库 : 


def plotDistribution(samples: RDD[Double]) { 
val stats = samples.stats() 
val min = stats.min 
val max = stats.max 
val domain = Range.Double(min, max, (max - min) / 100) 
.toList.toArray 
val densities = KernelDensity.estimate(samples, domain) 


val f = Figure() 
val p = f.subpLot(0) 
p += plot(domain, densities) 
p.xlabel = "Two Week Return ($)" 
p.ylabel = "Density" 

} 


plotDistribution(trials) 


其 | \ 
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9-3: 两 周 回报 分 布 


9.10 结果 的 评估 

怎样 才能 确定 风险 评估 的 好 坏 ? 怎样 才能 知道 是 否 该 进行 更 多 次 实验 ? 一 般 地 ， 蒙 特 卡 罗 
模拟 的 误差 与 1/ Vn 成 正比 。 也 就 是 说 ,通常 实验 次 数 增加 4 倍 ， 那 么 误差 就 大 约 减 半 。 

自 举 算法 是 计算 VaR 统计 量 置信 区 间 的 不 错 方法 。 通 过 在 实验 得 到 的 投资 组 合 回报 集合 
上 进行 重复 放 回 采样 (repeatedly sampling with replacement) ， 可 以 得 到 一 个 VaR 的 自 举 
分 布 。 每 次 我 们 从 样本 中 取出 与 实验 次 数 相等 的 样本 ， 并 根据 这 些 取出 的 样本 计算 VaR。 
所 有 计算 出 的 VaR 就 形成 了 一 个 经 验 分 布 ， 只 要 根据 该 经 验 分 布 的 分 位 数 就 能 得 到 置信 
区 间 了 。 


下 面 给 出 计算 RDD 的 所 有 统计 量 ( 即 国 数 的 computeStatistic 参数 ) 的 自 举 置信 区 间 。 
注意 该 函数 使 用 了 Spark 的 sample 方法 ， 第 一 个 参数 withRepLacement 设 为 true， 第 二 个 
参数 设 为 1.0， 代 表 抽 样 大 小 等 于 数据 集 大 小 : 


六 


def bootstrappedConfidenceInterval( 

trials: RDD[Double], 
computeStatistic: RDD[DoubLe] => Double, 
numResamples: Int, 
pValue: Double): (Double, Double)= { 

val stats = (0 until numResamples).map { i => 
val resample = trials.sample(true, 1.0) 
computeStatistic(resample) 

}.sorted 

val LowerIndex = (numResamples * pValue / 2).toInt 

val upperIndex = (numResamples * (1 - pValue / 2)).toInt 
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(stats(LowerIndex)，stats(upperIndex)) 


} 


接 下 来 我 们 调用 这 个 函数 ， 并 传 和 前面 定 义 好 的 fivePercentVaR 函数 以 从 实验 RDD 中 计 
算 VaR: 


bootstrappedConfidenceInterval(trials, fivepercentVaR, 100, .05) 
(-1754.9059171183192,-1751.0657037512767) 


同样 我 们 可 以 计算 自 举 CVaR: 


bootstrappedConfidenceInterval(trials, fivepercentCVaR, 100, .05) 
(-2356.2872000503235,-2351.231980404269) 


置信 区 间 提 供 了 模型 对 于 结果 的 置信 水 平 信息 ， 但 并 没有 提供 模型 是 否 符合 实际 情况 的 信 
息 。 对 于 检测 结果 质量 ， 在 历史 数据 上 进行 回 测 (backtesting) 是 个 不 错 的 方法 。 对 VaR 
的 测试 通常 采用 Kupiec 提出 的 失败 频率 检验 法 (Proportion-of-Failures，POF)。POF 计算 
在 多 个 历史 时 间 段 内 的 投资 组 合 回报 ， 然 后 计算 损失 超过 VaR 的 次 数 。 备 择 假设 认为 VaR 
是 合理 的 ， 充 分 极限 检验 统计 量 认 为 VaR 没有 准确 估计 数据 。 下 面 我 们 给 出 检验 统计 量 的 
公式 ， 它 依赖 如 下 三 个 参数 : 计算 VaR 的 置信 水 平 参数 PP、 损失 超过 VaR 的 历史 时 间 段 
的 次 数 x 和 历史 时 间 段 的 总 次 数 7: 


i T—-xXpx 

21n 人 站 ? 
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下 全 


看 是 在 历史 数据 上 计算 检验 统计 量 的 代码 。 为 了 数值 计算 的 稳定 性 更 好 ， 我 们 放大 了 对 


o 
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—21(7T— xln(l —p)+xlIn(p)— (7 — x)ln ( 一 


器 | 


var failures = 0 
for (i <- 0 until stocksReturns(0).size) { 
val Loss = stocksReturns.map(_(i)).sum 
if (loss < valueAtRisk) { 
failures += 1 


} 


failures 
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val failureRatio = failures.toDouble / total 

val logNumer = (total - failures) * math.logip(-confidenceLevel) + 
failures * math.log(confidenceLevel) 


val logDenom = (total - failures) * math.logip(-failureRatio) + 
failures * math.1log(failureRatio) 
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val testStatistic = -2 * (LogNumer - LogDenom) 
96.88510361007025 


如 果 备 择 假设 为 VaR 是 合理 的 ， 那 么 该 检验 统计 量 服从 自由 度 为 1 的 卡 方 分 布 。 我 们 可 以 
用 Commons Math 类 ChisquaredDistribution 来 计算 检验 统计 值 对 应 的 p 值 : 


import org.apache.commons.math3.distribution.ChiSquaredDistribution 


1 - new ChiSquaredDistribution(1.0).cumulativeprobability(testStatistic) 


结果 pp 值 很 小 ， 它 表示 我 们 有 充足 的 证 据 拒 绝 “ 模 型 是 合理 的 ”这 个 备 择 假设 。 所 以 看 来 
我 们 还 需要 进一步 改进 我 们 的 模型 。 


9.11 小结 


相对 于 金融 机 构 实际 应 用 的 模型 来 说 ， 本 章 练习 中 构造 的 模型 还 是 一 个 非常 粗略 的 初步 
结果 。 要 构造 一 个 准确 的 VaR 模型 ,还 有 一 些 非 常 重要 的 步 又 ,但 本 章 只 进行 了 粗略 的 
讨论 。 比 如 ， 市 场 因 素 的 选择 决定 了 模型 的 好 坏 ， 金 融 机 构 常 常 在 模拟 中 引入 数 百 个 市 
场 因素 。 


选择 这 些 因素 不 但 需要 在 历史 数据 上 运行 无 数 次 试验 ， 而 且 和 需要 大 量 创新 性 实践 。 将 市 场 
因素 映射 为 工具 回报 的 预测 模型 也 相当 重要 。 本 章 中 我 们 用 了 简单 的 线性 模型 ， 但 许多 模 
拟 采 用 非 线 性 函数 或 模拟 布朗 运动 的 时 间 轨 迹 。 最 后 ， 还 应 该 注意 用 于 模拟 因素 回报 的 分 
布 国 数 ，Kolmogorov-Smirnoff 测试 和 卡 方 测试 常用 于 测试 经 验 分 布 的 正 态 性 ，Q-Q 曲线 
图 可 以 形象 地 比较 不 同 分 布 。 相 比 本 章 中 采用 的 正 态 分 布 ， 尾 部 更 厚 的 分 布 曲线 通常 能 
更 好 地 反映 金融 风险 。 要 想 更 好 地 了 解 此 类 分 布 曲线 ， 可 以 参考 Markus Haas 和 Christian 
Pigorsch 的 文章 “Financial Economics, Fattailed Distributions” (http://bit.ly/1 ACazwy ) 。 


银行 也 使 用 Spark 和 大 规模 数据 处 理 框架 基于 历史 数据 计算 VaR。 想 了 解 基于 历史 数据 的 
VaR 计算 方法 的 概况 和 不 同方 法 的 表现 ， 可 以 参考 Darryll Hendricks 的 论文 “Evaluation of 
Value-at-Risk Models Using Historical Data” (http:Wnyfed.org/1ACaI2O ) 。 


壹 特 卡 罗 风 险 模 拟 的 作用 并 不 只 是 计算 单个 统计 量 。 通 过 影响 投资 决策 ， 其 结果 还 可 用 于 
主动 降低 投资 组 合 的 风险 。 举 例 来 说 ， 如 果 在 回报 最 差 的 实验 中 一 个 特定 的 工具 集合 常常 
多 次 造成 损失 ， 就 可 以 考虑 将 这 些 工 具 从 投资 组 合 中 去 掉 ， 或 者 增加 逆向 对 冲 工具 。 
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基因 数据 分 析 和 BDG 项 目 


作者 : Uri Laserson 


我 们 需要 把 地 球 上 的 SCHPON ( 硫 、 碳 、 毛 、 磷 、 扎 和 氮 ， 各 种 “ 卵 ”") 发 射 到 外 太空 。 
George M. Church 


随 着 下 一 代 DNA 测序 (next-generation DNA sequencing，NGS) 技术 的 出 现 ， 生 命 科 学 迅 
速 变 成 了 一 个 数据 驱动 的 领域 。 然 而 如 何 充 分 利用 这 些 数据 对 传统 计算 生态 系统 是 个 不 小 
的 挑战 。 这 些 传统 系统 的 分 布 式 计算 基于 底层 操作 原 语 (比如 DRMAA 或 MPI) 构造 ， 所 
以 它们 很 难 用 ， 而 且 使 用 纷繁 复杂 的 半 结 构 文 本 格式 。 


本 章 主要 有 三 个 目标 。 第 一 ， 面 向 普通 Spark 用 户 介绍 一 些 新 的 序列 化 和 文件 格式 (Avro 
和 Parquet) ， 这 些 格式 可 以 很 好 地 与 Hadoop 结合 ， 大 大 简化 了 数据 管理 的 许多 问题 。 使 
用 这 些 序列 化 技术 可 以 实现 紧凑 的 二 进 制 表示 、 面 向 服务 的 架构 和 跨 语 言 的 兼容 性 ， 对 许 
多 情况 我 们 都 推荐 使 用 它们 。 第 二 ， 面 向 那些 有 经 验 的 生物 信息 学 家 介绍 在 Spark 中 如 何 
完成 典型 的 基因 学 任务 。 具 体 来 说 ， 我 们 用 Spark 操作 大 量 基因 学 数据 ， 对 其 进行 处 理 、 
过 滤 ， 构 造 转录 因子 结合 位 点 预测 模型 ， 并 把 ENCODE 基因 组 标注 与 1000 个 Genome 项 
目 变 体 进行 联结 。 最 后 ， 本 章 还 可 作为 ADAM 项 目的 教程 。 ADAM 项 目 提供 了 一 组 基因 
学 相关 的 Avro 模式 以 及 大 规模 基因 学 分 析 的 Spark API 和 命令 行 工具 。ADAM 项 目 还 基 
于 Hadoop 和 Spark 提供 了 GATK 最 佳 实践 的 原生 分 布 式 实现 。 


本 章 介绍 基因 学 的 部 分 面向 有 经 验 的 生物 信息 学 家 ， 他 们 对 其 中 的 典型 问题 比较 熟悉 。 但 
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数据 序列 化 部 分 对 任何 要 处 理 大 量 数据 的 读者 都 适用 。 


10.1 分 离 存 储 与 模型 


生物 信息 学 家 在 数据 格式 上 花 了 太 多 精力 ， 我 们 简单 罗列 一 下 这 些 格式 ， 包 括 .fasta、 
.fastq、.Sam、.bam、.vcf、.gvcf、.bcf、.bed、.gff、.gtdt、.narrowPeak、.wig、.bigWig、 
.bigBed、.ped、.tped 等 一 大 串 。 更 不 用 说 这 些 科 学 家 花 了 多 少 精 力 研究 每 个 定制 工具 的 
定制 格式 。 然 而 这 些 格式 的 规范 要 么 不 完整 ， 要 么 太 模 糊 (这样 很 难保 证 实现 的 一 致 性 或 
兼容 性 ) ， 而 且 它们 使 用 ASCII 编码 数据 。ASCII 数据 在 生物 信息 学 中 用 得 非常 普遍 ， 但 
编码 效率 不 高 ， 压 缩 比 相 对 较 差 。 社 区 已 经 开始 改进 这 些 规范 的 不 足 之 处 ， 比 如 https:// 
github.com/samtools/hts-specs 就 是 一 个 例子 。 除 此 之 外 ， 数 据 必 须 经 过 解析 和 其 他 计算 处 
理 。 由 于 实质 上 这 些 格式 只 有 几 种 常用 对 象 类 型 : 对 齐 序列 读数 (aligned sequence read)、 
命名 基因 型 (called genotype)、 序 列 特征 和 表现 型 (phenotype)， 所 以 尤其 麻烦 。( 术 
语 “ 序 列 特征 ”在 基因 学 中 的 含义 有 些 含糊 ， 本 章 中 它 的 意思 是 UCSC 基因 组 浏览 器 里 
的 序列 。) biopython (http://biopython.org/) 之 类 的 全 能 解析 工具 (比如 Bto.SeqI0) 由 
于 可 以 把 各 种 文件 格式 转化 为 几 种 常用 内 存 模型 (比如 Bio.Seq、Bio.SeqRecord 和 Bio. 
SeqFeature 等 )， 所 以 深 受 大 家 欢迎 。 


利用 Apache Avro 之 类 的 序列 化 框架 ， 我 们 可 以 把 所 有 这 些 问 题 一 并 解决 掉 。Avro 的 关键 
是 它 使 数据 模型 ( 即 显示 模式 ) 独立 于 底层 数据 存储 格式 和 语言 的 内 存 表示 : Avro 指定 进 
程 之 间 某 种 数据 的 通信 方式 ， 不 管 它 是 在 互联 网 上 跨 进 程 通信 ， 还 是 进程 将 数据 写 入 某 种 
文件 格式 。 比 如 一 个 Java 程序 可 以 使 用 Avro 将 数据 写 入 多 种 底层 数据 格式 ， 但 Avro 的 数 
据 模 型 兼容 所 有 这 些 格 式 。 这 样 每 个 进程 都 不 需要 担心 不 同 格式 之 间 的 兼容 性 ， 而 只 要 知 
道 怎样 读 取 Avro 数据 模型 即 可 ,文件 系统 则 知道 如 何 生 成 Avro 数据 。 


我 们 现在 来 看 一 个 序列 特征 的 示例 。 先 用 Avro 接口 定义 语言 (IDL) 来 给 对 象 指 定 合适 的 
模式 : 


enum Strand { 
Forward ， 
Reverse， 
Independent 

} 

record SequenceFeature { 
string featureld; 
string featureType; ©@ 
string chromosome; 
Long startCoord; 
Long endCoord; 
Strand strand; 
double value; 
map<string> attributes; 
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@ 特征 类 型 比如 “conservation”“centipede”“gene”。 


类 型 sequenceFeature 可 用 于 对 保护 水 平 、 是 否 存 在 发 起 者 或 者 核糖 体 结合 位 点 、 转 录 因 
子 结合 位 点 等 进行 编码 。 我 们 可 以 把 它 看 成 JSON 格式 的 二 进 制版 本 ,但 Avro 限制 更 多 ， 
性 能 也 高 得 多 。 给 定 一 个 数据 模式 ，Avro 规范 精确 规定 对 象 的 二 进 制 编码 ， 这 样 我 们 就 可 
以 轻易 在 进程 之 间 (即使 进程 使 用 不 同 编程 语言 编写 ) 传递 对 象 ， 可 以 通过 网 络 通信 的 方 
式 ， 也 可 以 通过 将 对 象 存储 到 磁盘 的 方式 。Avro 项 目 提 供 处 理 Avro 数据 的 多 种 语言 编码 
模块 ， 包 括 Java、C/C++、Python 和 Perl。 除 此 之 外 ， 编 程 语言 还 可 以 按照 语言 最 优 的 方 
式 将 对 象 存 和 内存。 使 数据 模型 独立 于 存储 格式 的 做 法 还 提供 了 另 一 层 灵 活性 或 抽象 。 为 
了 提高 查询 速度 ， 我 们 可 以 将 Avro 数据 序列 化 为 二 进 制 对 象 (Avro 容器 文件 ) 并 以 列 式 
文件 格式 存储 (比如 Parquet 文件 )， 也 可 以 为 了 最 高 的 灵活 性 (牺牲 了 效率 ) 而 将 Avro 
数据 存 为 文本 形式 的 JSON 格式 。 最 后 ，Avro 支持 模式 的 进化 ， 用 户 可 以 按 需 要 随时 添加 
新 字段 ， 软 件 会 优雅 地 处 理 好 新 / 老 版 本 模式 的 兼容 问题 。 


总 之 Avro 是 一 个 高 效 的 二 进 制 编码 。 有 了 它 我 们 就 可 以 轻松 修改 数据 模式 ， 处 理 多 种 纺 
程 语言 产生 的 数据 ， 并 且 将 数据 存 成 多 种 数据 格式 。 使 用 Avro 模式 存储 数据 后 ， 我 们 再 
也 不 用 为 越 来 越 多 的 定制 化 数据 格式 操心 ， 同 时 又 能 提高 计算 效率 。 


序列 化 /RPC 框架 


开源 社区 有 许多 序列 化 框架 。 大 数据 领域 用 得 最 多 的 序列 化 框架 要 数 Apache Avro、 
Apache Thrift 和 Google 公司 的 Protocol Buffers。 本 质 上 它们 都 提供 了 一 个 IDL， 用 于 
说 明 对 象 /消息 类 型 的 模式 ， 而 且 都 可 以 编译 成 许多 不 同 编程 语言 。Thrift 在 Protocol 
Buffers 的 IDL 之 上 还 可 以 指定 RPC (Google 也 有 一 个 RPC 机 制 Stubyy， 但 是 Stubyy 
还 没有 开源 )。 最 后 在 IDL 和 RPC 之 上 ，Avro 还 提供 了 将 数据 存储 到 磁盘 上 的 文件 格 
式 规范 。 要 想 泛泛 地 说 哪个 序列 化 框架 适合 哪 种 场合 是 不 容易 的 ， 因 为 它们 都 支持 不 
同 的 语言 而 且 对 不 同 语言 的 性 能 也 各 不 相同 。 


对 实际 数据 来 说 ， 前 面 示例 中 的 SequenceFeature 模型 有 些 简 单 ， 但 大 数据 基因 (Big Data 
Genomics，BDG) 项 目 (http://bdgenomics.org/) 已 经 为 我 们 提供 了 许多 现成 对 象 的 Avro 
模式 定义 ， 比 如 : 


。 表示 读数 的 AlignmentRecord 

。 表示 对 某 个 位 置 基 准 观察 的 Pileup 

。 表示 基因 组 变 体 和 元 数据 的 Variant 

。 表示 一 个 基因 位 点 的 命名 基因 型 Genotype 
。 表示 序列 特征 〈 基 因 段 标注 ) 的 Feature 


实际 模式 可 以 在 bdg-formats 的 GitHub 资料 库 (https://github.com/bigdatagenomics/bdg- 
formats) 上 找到 。 全 球 基因 学 和 健康 联盟 也 在 开始 开发 自己 的 Avro 模式 (https://github. 
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com/ga4gh/schemas)。 这 应 该 不 会 造成 http://xkcd.com/927/ 的 状况 〈 这 里面 有 太 多 相互 竞 
争 的 Avro 模式 )。 即 使 出 现 这 种 状况 ， 相 比 目 前 那些 定制 的 ASCII 编码 ，Avro 还 是 在 性 
能 和 数据 建 模 方面 有 巨大 优势 。 本 章 后 面 将 使 用 儿 个 BDG 模式 来 完成 一 些 典型 的 基因 学 
任务 。 


10.2 用 ADAM CLI 导 入 基因 学 数据 


本 章 在 Spark 中 大 量 使 用 基因 学 项 目 ADAM。 该 项 目 还 在 持续 开发 之 中 ， 
包括 它 的 文档 也 是 。 如 果 你 碰 到 问题 一定 要 检查 一 下 GitHub 上 最 新 的 
README 文件 、GitHub 问题 跟踪 器 和 adam-developer 邮件 列表 。 


BDG 核心 基因 学 工具 称 为 ADAM。 从 一 组 映射 读 取 (mapped read) 开始 ， 这 些 核心 工 
具 提 供 重复 标注 (mark-duplicate)、 基 本 质量 分 数 重 校 (base quality score recalibration ， 
BQSR)、 插 入 和 缺失 突变 重新 比 对 (indel realignment) 和 变 体 识 别 (variant calling) 等 功 
能 。 为 了 简化 这 些 核心 功能 的 使 用 ，ADAM 还 提供 了 一 个 命令 行 界面 工具 。 相 比 于 HPC， 
这 些 命令 行 工具 可 以 识别 Hadoop 和 HDFS， 其 中 许多 工具 可 以 自动 在 整个 集群 中 进行 并 
行 化 而 不 用 用 户 手 动 拆 分 文件 或 调度 作业 。 


按照 README 文件 的 指示 ， 我 们 可 以 构建 adam 项 目 : 


git clone https://github.com/bigdatagenomics/adam.git 
cd adam 

export "MAVEN_OPTS=-Xmx512m -XX:MaxPermSize=128m" 

mvn clean package -DskipTests 


ADAM 提供 一 个 作业 提交 脚本 ， 可 以 实现 与 Spark 的 spark-submit 的 交互 。 使 用 该 脚本 最 
简单 的 方式 可 能 就 是 给 它 一 个 别名 : 


export $ADAM HOME=path/to/adam 
alias adam-submit="$ADAM_HOME/bin/adam-submit" 


按照 README 的 说 明 ， 我 们 可 以 通过 $IJAVA_OPTS 设置 JVM 选项 ， 或 者 也 可 以 参考 appassembler 
文档 以 了 解 更 多 信息 。 现 在 应 该 可 以 从 命令 行 上 运行 ADAM 工具 并 得 到 如 下 消息 : 


$ adam-submit 


e 888~-_ e e e 
d8b 888 \ d8b d8b d8b 
/Y88b 888 | /Y88b d888bdY88b 
/ Y88b 888 | / Y88b / Y88Y Y888b 
/____Y88b 888 / /.__Y88b / YY Y888b 
/ Y88b 888_-~ / Y88b i Y888b 


我 们 先 得 到 一 个 .bam 文件 ， 里 面包 含 一 些 mapped NGS read， 将 它们 转换 为 相应 的 BDG 
格式 (这 里 也 就 是 ALtgnedRecord) 并 保存 到 HDFS 上 。 首 先 我 们 取得 一 个 合适 的 .bam 文 


件 并 把 它 放 到 HDFS 上 。 


接着 可 以 用 ADAM 转换 命令 把 .bam 文 们 
和 列 式 存储 ”) 。 该 命令 既 能 夏 


Choose one of the following commands : 


ADAM ACTIONS 


compare : Compare two ADAM files based on read name 
findreads : Find reads that match particular individual 


or comparative criteria 


depth : Calculate the depth from a given ADAM file, 


at each variant in a VCF 


count_kmers : Counts the k-mers/q-mers from a read 


dataset. 


aggregate_piLeups : Aggregate pileups in an ADAM reference- 


oriented file 


transform : Convert SAM/BAM to ADAM format and 
optionally perform read pre-processing 


transformations 
plugin : Executes an ADAMPLugin 
[etc.] 


# 注意 该 文件 大 小 有 16 GB 


curl -0 ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data\ 
/HG00103/alignment/HG00103.mapped .ILLUMINA. bwa.GBR\ 


.Low_coverage.20120522.bam 


# 也 可 以 用 Aspera, 它 的 速度 快 得 多 


ascp -i path/to/asperaweb_id dsa.openssh -QTr -L 10G \ 
anonftp@ftp.ncbi.nlm.nih.gov:/1000genomes/ftp/data/HG00103\ 


/alignment/HG00103.mapped .ILLUMINA. bwa.GBR\ 
.Low_coverage.20120522.bam . 


hadoop fs -put HG00103.mapped.ILLUMINA.bwa.GBR\ 


.Low_coverage.20120522.bam /user/ds/genomics 


adam-submit\ 
transform \ © 


/user/ds/genomics/HG00103.mapped.ILLUMINA. bwa.GBR\ 


.Low_coverage.20120522.bam \ 所 
/user/ds/genomics/reads/HG00103 


@ ADAM 命令 本 身 。 
@ 其 余 参 数 只 针对 transforn 命令 。 


基 


这 会 使 控制 台 产 生 大 量 输出 ， 其 中 包括 跟踪 作业 进度 的 URL。 我 们 来 看 看 输 ! 
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F 转 成 Parquet 格式 (请 参考 后 面 的 “Parquet 格式 
FE 集群 上 运行 ， 也 能 在 本 地 模式 下 运行 。 


$ hadoop fs -du -h /user/ds/genomics/reads/HG00103 

0 /user/ds/genomics/reads/HG00103/_SUCCESS 

516.9 K /user/ds/genomics/reads/HG00103/_metadata 

101.8 M /user/ds/genomics/reads/HG00103/part-r-00000.gz.parquet 
101.7 M /user/ds/genomics/reads/HG00103/part-r-00001.gz.parquet 
[...] 

104.9 M /user/ds/genomics/reads/HG00103/part-r-00126.gz.parquet 
12.3 M /user/ds/genomics/reads/HG00103/part-r-00127.gz.parquet 


结果 数据 集 把 和 目录 下 所 有 的 文件 都 合 在 一 起 ， 每 个 part- 
“parquet 文件 对 应 一 个 Spark 任务 输出 。 你 可 能 也 会 注意 到 数据 的 压缩 效率 比 开始 的 .bam 
文件 (底层 是 gzip 压缩 ) 要 高 ， ei 


$ hadoop fs -du -h "/user/ds/genomics/HG00103.*.bam" 
15.9 G /user/ds/genomics/HG00103. [...] .bam 


$ hadoop fs -du -h -s /user/ds/genomics/reads/HG00103 
12.6 6G /user/ds/genomics/reads/HG00103 


我 们 在 命令 行 里 交互 地 看 一 个 对 象 。 首 先 用 ADAM 助手 脚本 启动 Spark shell。 它 默认 的 参 
数 /选项 与 Spark 脚本 相同 ， 但 会 加 载 所 有 必需 的 JAR 文件 。 下 面 的 示例 中 ，Spark 运行 
在 YARN 上 : 


export SPARK_HOME=/path/to/spark 
$ADAM_HOME/bin/adam-shell 


14/09/11 17:44:36 INFO SecurityManager: [...] 
14/09/11 17:44:36 INFO HttpServer: Starting HTTP Server 
Welcome to 


1 二 办 
2 

/_/._/\,////\\ version 1.2.1 
/_/ 


Using Scala version 2.10.4 
(Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_67) 
[...Lots of additional logging around setting up the YARN app...] 


scala> 


注意 现在 的 任务 是 运行 在 YARN 上 的 ， 交 互 式 Spark shell 要 求 是 yarn-client 模式 ， 这 时 
驱动 程序 在 本 地 运行 。 同 时 我 们 也 需要 设置 好 HADOOP_CONF_DIR 或 者 YARN_CONF_DIR。 现 在 
把 aligned read 数据 加 载 为 RDD[AlignmentRecord]: 


import org.apache.spark.rdd.RDD 
import org.bdgenomics.adam.rdd.ADAMContext._ 


import org.bdgenomics.formats.avro.AlignmentRecord 


val readsRDD: RDD[ALLgnmentRecord] = sc.adamLoad( 
"/user/ds/genomics/reads/HG00103") 
readsRDD.first() 


这 会 输出 许多 日 志 (Spark 和 Parquet 的 日 志 比较 多 ) 和 结果 本 身 : 


res0: org.bdgenomics.formats.avro.AlignmentRecord = 
{"contig": 

{"contigName": "X", "contigLength": 155270560, 
"contigMD5": "7eQe2e580297b7764e31dbc80c2540dd"， 
"referenceURL": "ftp:\/\/ftp.1000genomes.ebi.ac.uk\/...", 
"assembly": null, "species": null}, 

"start": 50194838, "end": 50194938, "mapq": 60， 

"readName": "SRR062642.27455291" ， 

"sequence": "TGACTCTGATGTTAAGATGCATTGTT...", 

"qual": ".LMMQPRQQPRQPILRQQRRIQQRQ...", "cigar": "100M", 

"basesTrimmedFromStart": 0, "basesTrimmedFromEnd": 0， 

"readPaired": true, "properPair": true, "readMapped":...} 


(以 上 输出 经 过 了 修改 以 适应 排版 ) 你 看 到 的 读数 可 能 不 一 样 ， 原 因 是 集群 上 数据 的 分 区 
不 同 ， 不 能 保证 哪 条 读数 会 先 返 回 。 


现在 我 们 可 以 在 数据 集 上 交互 式 地 提出 问题 ， 在 问 这 些 问题 的 同时 集群 在 后 台 执 行 运算 。 
数据 集中 有 多 少 个 读数 ? 


readsRDD. count() 
14/09/11 18:26:05 INFO SparkContext: Starting job: count [...] 


res16: Long = 160397565 


接着 看 看 这 些 数据 集中 的 读数 是 来 自 人 类 染色 体 吗 ? 


val uniq_chr = (readsRDD 
.map(_.contig.contigName.toString) 
.distinct() 
.collect()) 
uniq_chr.sorted.foreach(println) 


1 

10 

11 

12 

[...] 
0L000249 .1 
MT 
NC_007605 
X 

Y 

hs37d5 
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很 好 ! 现在 来 更 进一步 分 析 这 条 语句 : 


val uniq chr = (readsRDD © 
.map(_.contig.contigName.toString) @ 
.distinct() © 
.COLLect()) @ 


结果 为 RDD[AlignmentRecord]， 这 个 RDD 包含 了 全 部 数据 。 


字符 串 。 


虽然 这 个 RDD 应 该 不 大 ， 但 它 还 是 一 个 RDD。 
© 


假设 我 们 使 用 下 一 代 测 序 技术 对 个 体 进行 圳 性 纤维 化 载体 扫描 ， 


结果 为 RDD[String] ， 我 们 从 每 个 AlignmentRecord 对 象 中 提取 contig name 并 将 其 转 成 


结果 为 RDpDp[String]， 会 产生 一 个 reduce/shuffle 以 将 所 有 不 同 的 contig name 汇总 起 来 ; 


结果 为 Array[String]， 这 会 触发 计算 并 将 RDD 中 的 数据 传 到 客户 端 应 用 〈 即 shell) 。 


我 们 的 基因 型 识别 器 给 


的 结果 有 点 像 过 早 终止 密码 子 ， 但 HGMD (http://www.hgmd.cf.ac.uk/) 和 Sickkids CFTR 


(http://www.genet.sickkids.on.ca/) 数据 库 中 都 没有 这 种 过 早 终止 密码 子 。 我 们 想 
型 是 否 属 于 误 报 。 为 此 需要 人 工分 析 变 体位 


看 看 原始 基因 序列 数据 并 检查 潜在 有 害 基 因 
点 ， 比 如 7 号 染色 体 所 在 的 117149189 位 置 对 应 的 所 有 读数 (如 


val cftr_reads = (readsRDD 
.filter(_.contig.contigName.toString == "7") 
.filter(_.start <= 117149189) 
.filter(_.end > 117149189) 
.Collect()) 


回 过 头 来 


加 


10-1 所 示 ) : 


cftr_reads.length // cftr_reads 是 一 个 本 地 的 Array[AlignmentRecord] 


res2: Int = 9 


chr7 
站 ee 13 is re Dr OQ pp [村 nL cE ‘ ry re q34 mm 


~ 


| 


846 bp 


117.148.800 bp 117,148,900 bp 117,149,000 bp 117,149,100 bp 117.149.200 bp 
| 1 | 1 | 1 


117,149,300 bp 
| 


117,149,400 bp 117,149,500 bp 117,149,6| 
1 | 


HG00103.map...am Coverage 这 


A 


"se 
wi i 
I Tr 


1 

| 
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| 

HG00103.mapped.ILLUMINA.bw| | 
low_coverage.20120522 bam | 
| 

| 

| 

| 

| 


现在 我 们 可 以 人 工 检查 这 9 个 读数 或 者 按照 指定 方式 对 齐 它 们 ， 并 检查 报告 的 致 病变 体 是 
否 属于 误 报 。 下 面 是 个 小 练习 : 请 问 7 号 染色 体 的 平均 覆盖 率 是 多 少 ? (这 个 值 肯 定 很 
小 ， 它 不 足以 让 我 们 可 靠 地 判断 给 定 未 知 的 基因 型 。) 


假设 我 们 有 一 个 向 临床 医生 提供 载体 筛选 服务 的 诊断 室 ， 用 Hadoop 对 原始 数据 进行 归档 
可 以 使 数据 保持 在 相对 较 “ 热 ”的 状态 (与 磁带 等 归档 技术 相 比 )。 除 了 可 靠 性 高 的 优点 
之 外 ， 用 Hadoop 处 理 实际 数据 还 能 让 我 们 很 便捷 地 访问 所 有 历史 数据 ， 这 些 历史 数据 可 
以 用 于 质量 控制 (QC) 或 那些 需要 人 工 干预 的 场合 ， 比 如 本 章 前 面 提 到 的 CFTR 示例 。 除 
了 可 以 快速 访问 全 部 数据 ， 数 据 集 中 存放 后 我 们 还 能 轻松 地 进行 大 规模 分 析 ， 比 如 进行 人 
口 基因 学 分 析 、 大 规模 QC 分 析 ， 等 等 。 


Parquet 格 式 和 列 式 存储 
上 一 节 ， 我 们 讨论 了 如 何 操作 大 量 序 列 数 据 而 不 用 担心 底层 存储 规范 或 运算 的 并 行 化 。 但 
是 ， 请 注意 ADAM 项 目 用 的 是 Parquet 文件 格式 ， 该 格式 是 这 里 性 能 大 幅 提升 的 原因 。 


Parquet 是 一 种 开源 文件 格式 规范 ， 并 且 它 提供 了 一 套 reader/writer 实现 。 一 般 情况 下 对 
分 析 型 查询 用 到 的 数据 (一 次 写 入 多 次 读 取 )， 我 们 都 推荐 使 用 Parquet 格式 。 该 格式 思 
想 主 要 来 源 于 Google 的 Dremel 系统 (请 参考 “Dremel: Interactive Analysis of Web-scale 
Datasets” (http://research.google.com/pubs/archive/36632.pdf) Proc. VLDB, 2010, by Melnik et 
al.) 中 底层 的 数据 存储 格式 。Parquet 的 数据 模型 可 以 和 Avro、Thrift 以 及 Protocol Buffers 
兼容 。 有 具体 来 说 ， 它 支持 大 多 数 常用 数据 库 类 型 ( 整 型 、 双 精度 、 字 符 串 等 )， 也 支持 数 
组 和 记录 类 型 ,包括 髓 套 类 型 。 更 重要 的 是 ， 它 是 一 种 列 式 文件 格式 ， 也 就 是 说 许多 记录 
的 某 个 列 的 值 在 磁盘 上 是 连续 存储 在 一 起 的 (如 图 10-2 所 示 )。 这 种 物理 数据 布局 大 幅 提 
升 了 数据 编码 /压缩 的 效率 ， 并 且 通 过 减少 读 取 / 反 序列 化 数据 (http://the-paper-trail.org/ 
blog/columnar-storage/) 的 量 大 幅 减少 了 查询 时 间 。Parquet 中 可 以 为 每 列 指定 不 同 的 编码 / 
压缩 机 制 ， 每 列 都 支持 run-length 编码 、dictionary 编码 和 delta 编码 。 


Parquet 在 提高 性 能 方面 另 一 个 有 用 的 功能 是 谓词 下 推 (predicate pushdown)。 谓 词 是 一 
个 表达 式 或 者 函数 ， 它 的 值 可 以 根据 数据 记录 (也 就 是 SQL WHERE 子 句 中 的 表达 式 ) 计 
算出 来 ， 要 么 为 true， 要 么 为 false。 在 前 面 我 们 的 CFTR 查询 中 ，Spark 必须 把 每 个 
AlignmentRecord 全 部 反 序列 化 /物化 后 才能 再 确定 每 个 AlignmentRecord 是 否 通 过 谓词 测 
试 。 这 会 导致 WO 和 CPU 时 间 的 大 量 浪费 。 我 们 可 以 在 Parquet reader 实现 中 指定 一 个 谓 
词类 ， 这 样 在 物化 整个 记录 前 我 们 可 以 只 反 序列 化 那些 用 于 判断 的 必要 列 。 
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逻辑 表 的 表示 


行 布局 
[ellols [eel [eel Te 
列 布局 


国 加 回国 国 加 回回 四 回回 回回 加 加 
| 


编码 


编码 后 的 块 编码 后 的 块 编码 后 的 块 


图 10-2: 面向 行 和 面向 列 的 布局 差异 


比如 要 利用 谓词 下 推 技 术 实 现 我 们 的 CFTR 查询 ， 需 要 先 定义 一 个 合适 的 谓词 类 ， 它 用 于 
测试 ALtgnmentRecord 是 否 是 目标 位 点 : 


import org.bdgenomics.adam.predicates.ColumnReaderInput._ 
import org.bdgenomics.adam.predicates .ADAMPredicate 
import org.bdgenomics.adam.predicates.RecordCondition 
import org.bdgenomics.adam.predicates.FieldCondition 


class CftrLocusPredicate extends ADAMPredicate[AlignmentRecord] { 
override val recordCondition = RecordCondition[AlignmentRecord]( 


FieldCondition( 

"contig.contigName", (x: String) => x == "chr7"), 
FieldCondition( 

"start", (x: Long) => x <= 117149189 ) ， 
FieldCondition( 


"end", (x: Long) => x >= 117149189)) 
} 


注意 ， 要 想 谓词 起 作用 ，Parquet reader 必须 要 初始 化 类 本 身 。 这 就 意味 着 我 们 必须 把 代码 
编译 成 一 个 JAR 文件 ， 然 后 通过 在 Spark 的 classpath 中 加 入 该 JAR 文件 使 执行 器 也 可 以 
读 到 。 之 后 我 们 就 可 以 像 下 面 代 码 所 示 的 那样 使 用 谓词 了 : 


val cftr_reads = sc.adamLoad[AlignmentRecord, CftrLocusPredicate]( 
"/user/ds/genomics/reads/HG00103", 


Some(cLassof[CftrLocusPredicate])).coLLect() 


上 述 代码 执行 速度 应 该 更 快 ， 因 为 它 不 再 需要 全 部 物化 所 有 的 AlignmentRecord 对 象 。 


10.3 从 ENCODE 数 据 预测 转录 因子 结合 位 点 


本 例 中 我 们 将 用 公开 的 序列 特征 数据 来 构建 一 个 简单 的 转录 因子 结合 位 点 模型 。 转 录 因 
子 (Transcription factors，TFs) 是 染色 体 中 与 某 些 位 点 结合 的 蛋白 质 ， 它 有 助 于 控制 不 同 
基因 的 表达 。 因 此 转录 因子 是 确定 一 个 细胞 的 基因 型 的 关键 ， 许 多 生理 学 和 疾病 过 程 都 离 
不 开 它 。 染 色 质 免疫 沉淀 测序 (ChIP-seq) 是 一 种 基于 NGS 的 实验 ， 可 以 在 基因 组 范围 内 
描述 对 某 个 TF 在 某 个 细胞 /组 织 类 型 中 的 位 点 结合 。 然 而 ，ChIP-seq 成 本 高 技术 难度 大 ， 
而 且 需 要 对 每 种 组 织 和 TF 的 两 两 组 合 进行 单独 实验 。 相 比 而 言 ，DNase-seq 实验 寻找 染色 
体 组 内 eh, 它 对 每 种 组 织 类 型 只 做 一 次 。 与 对 每 个 组 织 /TF 组 合 都 进行 基于 
ChIP-seq 的 TF 结合 位 点 实验 不 同 ， 我 们 希望 只 要 能 拿 到 DNase-seq 数据 就 可 以 预测 新 组 
织 类 型 中 的 TF 结 $ 合 位 上 


更 具体 地 ， 我 们 将 使 用 DNase-seq 数据 、 已 知 序列 主题 数据 (来 源 于 HT-SELEX,， http:// 
dx.doi.org/10.1016/j.cell.2012.12.009) 和 其 党 些 公 开 的 ENCODE 数据 集 (https://www. 
encodeproject.org/) 来 预测 CTCF 转录 因子 的 结合 位 点 。 我 们 选取 了 6 种 有 DNase-seq 和 
CTCF ChIP-seq 数据 的 不 同 细 胞 类 型 。 训 练 样本 为 DNA 酶 超 敏 (HS) 峰值 ， 标 号 来 自 
ChIP-seq 数据 。 


我 们 将 使 用 如 下 细胞 系数 据 : 


。 GMI]12878 
被 广泛 研究 的 淋巴 细胞 系 (lymphoblastoid cell line) 


。 K562 
慢性 粒 细 胞 白血病 细胞 系 (female chronic myelogenous leukemia) 


。 BJ 
皮肤 成 纤维 细胞 (skin fibroblast) 


。 HEK293 
胚 肾 细 胞 系 (embryonic kidney) 


。 HS54 
脑 胶 质 瘤 (glioblastoma) 


。 HepG2 
肝 细 胞 癌 (hepatocellular carcinoma) 
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首先 我 们 把 .narrowPeak 格式 的 细胞 系 DNase 数据 下 载 下 来 : 


hadoop fs -mkdir /user/ds/genomics/dnase 
curl -s -L <...DNase URL...> \@O 


| gunzip \ @ 
| hadoop fs -put - /user/ds/genomics/dnase/sample.DNase.narrowPeak 


[...] 

@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代 码 。 

@ 流 式 压缩 。 

接 下 来 下 载 CTCEF 转录 因子 的 ChIP-seq 数据 和 GENCODE 数据 。ChIP-seq 数据 也 
是 .narrowPeak 格式 的 ， 而 GENCODE 数据 是 GTF 格式 的 。 


hadoop fs -mkdir /user/ds/genomics/chip-seq 
curl -s -L <...ChIP-seq URL...> \.©O 

| gunzip \ 

| hadoop fs -put - /user/ds/genomics/chip-seq/samp.CTCF.narrowPeak 
[i 


@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代码 。 


注意 ， 在 把 数据 写 到 HDFS 上 的 同时 对 数据 流 用 gunzip 解压 。 现 在 我 们 下 载 一 些 其 他 的 数 
据 集 ， 有 了 这 些 数据 就 可 以 从 中 得 到 用 于 预测 的 特征 : 
# gh19 人 类 基因 组 序列 


curl -s -L-0\ 
"http://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigzips/hg19.2bit" 


最 后 conservation 数据 是 fixed wiggle 格式 的 ， 不 能 把 它 作 为 一 个 可 拆 分 文件 进行 读 取 。 所 
以 在 读 取 色 度 坐 标 元 数据 时 ， 任 务 无 法 知道 在 文件 中 要 往 后 读 多 少数 据 ， 因 此 我 们 要 在 往 
HDFS 上 写 数据 的 同时 将 .wigFix 转换 成 BED 格式 。 


hadoop fs -mkdir /user/ds/genomics/phylop 
for i in $(seq 1 22); do 
curl -s -L <...phyloP.chrs$si URL... > \O 
| gunzip \ 
| adam-submit wigfix2bed \ 
| hadoop fs -put - "/user/ds/genomics/phylop/chr$i.phyloP.bed" 
done 


[ea 
@ 实际 的 curl 命令 请 参考 本 书 附带 的 GitHub 资料 库 代 码 。 


最 后 ， 我 们 在 Spark shell 中 将 phyloP 数据 从 基于 文本 的 .bed 格式 一 次 性 转换 成 Parquet 
格式 。 
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(sc 


.adamBEDFeatureLoad("/user/ds/genomics/phylop_text") 


.adamSave("/user/ds/genomics/phylop")) 
我 们 想 从 所 有 原始 数据 生成 如 下 模式 的 训练 数据 : 


.DNase 超 敏感 位 点 ID (DNase HS peak ID) 

.染色体 (chromosome ) 

。 开始 位 置 (start) 

。 结束 位 置 (end) 

最 高 TF 主题 PWM 分 数 (TF motif PWM score) 

. 平均 phyloP 保护 分 数 (phyloP conservation score) 
.最 大 phyloP 保护 分 数 

. 最 小 phyloP 保护 分 数 

. 到 最 近 转 录 起 始 位 点 (TSS) 的 距离 

10. 转录 因子 类 型 (TF identity) (本 例 中 一 直 是 CTCF) 
11. 细胞 系 (cell line) 

12. 转录 因子 结合 状态 (布尔 值 ， 目 标 变 量 


‘OP OW 全 - 


A 


现在 来 生成 用 于 创建 RDD[LabeledPoint] 的 数据 集 。 我 们 需要 对 多 个 细胞 系 生成 数据 ， 因 


此 对 每 个 细胞 系 都 定义 一 个 RDD， 然 后 再 将 它们 连接 在 一 起 : 


0 


val ceLLLines = Vector( 


"GM12878", "K562", "BJ", "HEK293", "H54", "HepG2") 
val dataByCeLLLine = ceLLLines.map(CeLLLine => { 名 


3) 
}) 


© 
@ 加 载 必要 的 标注 数据 。 
@ 对 每 个 细胞 系 …… 
@ 生成 一 个 RDD 以 便 转 换 成 RDD[LabeledPoint]。 
@ 把 RDD 串 在 一 起 之 后 输入 给 MLlib 等 。 


开始 之 前 ， 我 们 先 加 载 在 整个 计算 过 程 中 都 要 用 到 的 一 些 数据 ， 包 括 会 话 转录 开始 位 点 、 


人 类 基因 组 参考 序列 和 来 自 HIT-SELEX (http://dx.doi.org/10.1016/j.cell.2012.12.009) 的 


CTCF PWM : 


// 加 载 人 类 基因 组 参考 序列 
val bHg19Data = sc.broadcast( 
new TwoBitFile( 


基 
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new LocalFileByteAccess( 
new File("/user/ds/genomics/hg19.2bit")))) 


val phyLopRDD = (sc.adamLoad[Feature, Nothing]("/user/ds/genomics/phylop") 
// 清理 掉 phyLop 数 据 中 一 些 异 常数 据 
.filter(f => f.getStart <= f.getEnd)) 


val tssRDD = (sc.adamGTFFeatureLoad( 
"/user/ds/genomics/gencode.v18.annotation.gtf") 
.filter(_.getFeatureType == "transcript") 
.map(f => (f.getContig.getContigName, f.getStart))) 


val bTssData = sc.broadcast(tssRDD 
// 按 contig name 分 组 
.groupBy(_._1) 
// 为 每 个 染色 体 建 立 TSS 点 位 Vector 
.map(p => (p._1, p._2.map(_._2.toLong).toVector)) 


// 收集 到 本 地 内 存 结 构 中 以 便 广播 
.COLLect() .toMap) 


// 来 自 http://dx.doi.org/10.10161j.ceLL.2012.12.009 的 CTCF PWM 

val bpPwmData = sc.broadcast(Vector( 
Map('A'->0.4553,'C'->0.0459,'G'->0.1455,'T'->0.3533), 
Map('A'->0.1737,'C'->0.0248,'G'->0.7592,'T'->0.0423), 
Map('A'->0.0001,'C'->0.9407,'G'->0.0001,'T'->0.0591), 
Map('A'->0.0051,'C'->0.0001,'G'->0.9879,'T'->0.0069), 
Map('A'->0.0624,'C'->0.9322,'G'->0.0009,'T'->0.0046), 
Map('A'->0.0046,'C'->0.9952,'G'->0.0001,'T'->0.0001), 
Map('A'->0.5075,'C'->0.4533,'G'->0.0181,'T'->0.0211), 
Map('A'->0.0079,'C'->0.6407,'G'->0.0001,'T'->0.3513), 
Map('A'->0.0001,'C'->0.9995,'G'->0.0002,'T'->0.0001), 
Map('A'->0.0027,'C'->0.0035,'G'->0.0017,'T'->0.9921), 
Map('A'->0.7635,'C'->0.0210,'G'->0.1175,'T'->0.0980), 
Map('A'->0.0074,'C'->0.1314,'G' ->0.7990,'T' ->0.0622), 
Map('A'->0.0138,'C'->0.3879,'G'->0.0001,'T' ->0.5981), 
Map('A'->0.0003,'C'->0.0001,'G'->0.9853,'T'->0.0142), 
Map('A'->0.0399,'C'->0.0113,'G'->0.7312,'T'->0.2177), 
Map('A'->0.1520,'C'->0.2820,'G'->0.0082,'T'->0.5578), 
Map( 'A'->0.3644,'C'->0.3105,'G'->0.2125,'T'->0.1127))) 


现在 我 们 定义 一 些 工 具 国 数 ， 这 些 工具 函数 可 以 用 于 生成 标号 、PWM 打分 和 TSS 距离 等 
特征 : 


// 寻找 最 近 转 录 开 始点 位 的 函数 

// 简单 实现 …… 有 待 完善 

def distanceToClosest(loci: Vector[Long], query: Long): Long= { 
loci.map(x => abs(x - query)).min 


T 


// 基于 TF PWM 计算 主题 分 数 
def scorePNM(ref: String): Double = { 
val scorel = ref.sLiding(bPwmData.vaLue.Length).map(s => { 
s.zipWithIindex.map(p => bPwmData.VvaLue(p. 2)(p._1)).product 
}) .max 


val rc = SequenceUtils 
val score2 = rc.sLidin 


.reverseComplement(ref) 
g(bPpwmData.value.length).map(s => { 


s.zipWithIindex.map(p => bPpwmData.value(p._2)(p._1)).product 


}) .max 
max(score1l, score2) 


} 


// 将 DNase 最 高 点 标注 为 是 否 是 结合 点 位 的 函数 

// 计算 一 个 区 间 和 一 组 区 间 之 间 的 重 到 

// 简单 实现 ,因为 我 们 知道 ChIP-seq 最 高 点 ,所 以 该 实现 才能 行 得 通 
// 没有 重合 (怎样 验证 没有 重 炙 ?作为 练习 ,请 读者 自行 验证 ) 


def isOverlapping(i1: (Long, Long), i2: (Long, Long)) = 
(i1. 2 > i2. 1) && (i1. 1 < i2. 2) 


def isOverlappingLoci(loci: Vector[(Long，Long)]， 
testInterval: (Long, Long)): Boolean = { 


@tailrec 
def search(m: Int, M: 


Int): Boolean = { 


val mid =m+(M-m)/2 


if (M <= m){ 
false 


} else if (isOverlapping(loci(mid), testInterval)) { 


true 


} else if (testInterval. 2 <= loci(mid). 1) { 


search(m, mid) 
} elsef{ 
search(mid + 1, M) 
} 
} 
search(0, loci.length) 
} 


最 后 ， 我 们 定义 一 个 在 每 个 细胞 系 上 进行 数据 计算 的 “loop” 循 环 体 。 注 意 ， 我 们 读 取 的 
是 文本 形式 的 ChIP-seq 和 DNase 数据 ， 因 为 数据 集 不 是 特别 大 ， 所 以 对 性 能 影响 不 大 。 


首先 我 们 把 DNase 和 ChIP-seq 数据 加 载 为 RDD: 


val dnaseRDD = sc.adamNarrowPeakFeatureLoad( 
s"/user/ds/genomics/dnase/$cellLine.DNase.narrowPeak") 

val chipseqRDD = sc.adamNarrowPeakFeatureLoad( 
s"/user/ds/genomics/chip-seq/$cellLine.ChIP-seq.CTCF.narrowPeak") 


接 下 来 定义 一 个 在 DNase 特 和 


E 上 产生 目标 标号 (“binding” 或 “not binding”) 的 函数 ,该 


函数 要 能 同时 访问 所 有 ChIP-seq 峰值 ， 因 此 我 们 把 原始 ChIP-seq 数据 加 载 到 内 存 ， 将 其 
设 为 广播 变量 bBindingData 并 广播 到 所 有 节点 : 


val bBindingData = sc.broadcast( 


chipseq 


// 安装 染色 体 对 最 高 点 进行 分 组 
.groupBy(_.getContig.getContigName.toString) ©@ 

// 对 每 个 chr 和 每 个 ChIP-seq 最 高 点 提取 开始 位 置 和 结束 位 置 
.map(p => (p._1, p._2.map(f => 


基因 数据 分 析 和 BDG 项 目 | 189 


(f.getStart: Long, f.getEnd: Long)))) @ 
// 对 每 个 chr 对 最 高 点 (没有 重合 ) 进 行 排序 
.map(p => (p._1, p._2.toVector.sortBy(x => x._1))) © 


// 收集 到 本 地 内 存 结 构 以 便 广播 
.collect().toMap) 


@ RDD[(String, Iterable[Feature])]。 
@ RDD[(String, Iterable[(Long, Long)])]。 


@ RDD[(String, Vector[(Long, Long)])]。 


这 个 操作 提供 了 一 个 Map， 其 中 key 是 染色 体 名 称 ，value 是 位 置 不 重 县 的 (start，end) 对 
的 一 个 Vector。 现 在 我 们 定义 真正 的 标号 函数 : 


def generateLabeL(f: Feature) = { 
val contig = f.getContig.getContigName 
if (!bBindingData.value.contains(contig)) { 
false 
} else { 
val testInterval = (f.getStart: Long, f.getEnd: Long) 
isOverlappingLoci(bBindingData.value(contig), testInterval) 
} 
} 


要 计算 conservation 特征 (使 用 phyloP 数据 )， 必 须 把 DNase 和 phyloP 数据 联结 在 一 起 。 
因为 联结 的 是 区 间 ， 所 以 我 们 用 ADAM 中 的 BroadcastRegionJoin 功能 ， 它 计算 非 重 倒 区 
域 并 通过 广播 所 收集 到 的 数据 执行 replicated 联结 : 


val dnaseWithPphylopRDD = ( 
BroadcastRegionJoin.partitionAndJoin(sc, dnaseRDD, phylopRDD) 
// 按 DNase 最 高 点 对 保护 值 进 行 分 组 
.groupBy(x => X. 1.getFeatureId) 
// 计算 每 个 最 高 点 保护 水 平 统计 统计 量 
.map(x => { 
val y = x._2.toSeq 
val peak = y(0)._1 
val values = y.map(_._2.getValue) 
// 计算 phyLop 特 征 
val avg = values.reduce(_ + _) / vaLues.Length 
val m = values.max 
val M = values.min 
(peak.getFeatureId, peak, avg, m, M) 
})) 


现在 我 们 计算 每 个 DNase 峰值 的 最 终 特征 集合 ， 其 中 也 包括 目标 变量 : 


// 生成 最 终 元 组 集合 
dnaseWithphylopRDD.map(tup => { 
val peak = tup. 2 
val featureId = peak.getFeatureId 
val contig = peak.getContigName.getContigName 


val start = peak.getStart 

val end = peak.getEnd 

val score = ScorePNM( 
bHg19Data.value.extract(ReferenceRegion(peak))) 

val avg = tup._3 

val m = tup. 4 

val M = tup._5 

val closest tss = min( 
distanceToClosest(bTssData.value(contig), peak.getStart), 
distanceToClosest(bTssData.value(contig), peak.getEnd)) 

val tf = "CTCF" 

val line = cellLine 

val bound = generateLabeL(peak) 

(featureId, contig, start, end, score, avg, m, M, closest tss, 
tf, line, bound) 

}) 


这 个 最 终 的 RDD 在 遍历 细胞 系 的 每 次 循环 中 都 要 计算 一 次 。 最 后 我 们 把 每 个 细胞 系 的 
RDD 结合 在 一 起 ， 并 且 缓 存在 内 存 中 为 模型 训练 做 准备 : 


3 


val preTrainingData = dataByCellLine.reduce(_ ++ _) 
preTrainingData.cache() 


preTrainingData.count() // 801263 
preTrainingData.filter(_._12 == true).count() // 220285 


现在 为 了 训练 分 类 器 ， 我 们 可 以 对 preTrainingData 中 的 数据 进行 归 一 化 并 将 其 转换 成 


RDD[LabeLedPoint]， 详 细 情 况 可 以 参考 第 4 章 。 注 意 ， 这 里 要 执行 交叉 验证 ， 应 该 在 每 个 
fold 中 取出 一 个 细胞 系 用 于 验证 。 


10.4 查询 1000 Genomes 项 目 中 的 基因 型 


在 这 个 示例 中 ， 我 们 要 导入 全 部 1000 Genomes 基因 型 数据 集 。 我 们 先 把 原始 数据 下 载 下 
来 并 直接 存放 到 HDFS 上 上， 解压， 然后 运行 ADAM 作业 将 数据 转 成 Parquet 格式 。 下 面 的 
示例 命令 应 该 针对 所 有 染色 体 运 行 ， 它 在 整个 集群 中 并 行 执行 : 


curl -s -L ftp://.../1000genomes/.../chrl.vcf.g9z \ © 


| gunzip \ 
| hadoop fs -put - /user/ds/genomics/1kg/vcf/chri.vcf @ 


export SPARK_JAR_PATH=hdfs:///path/to/spark.jar 
adam/bin/adam-submit --conf spark.yarn.jar=$SPARK_JAR_PATH \ 
vcf2adam \ © 
-coalesce 5 \ 
/user/ds/genomics/1kg/vcf/chri.vcf \ 
/user/ds/genomics/1kg/parquet/chr1 


@ 实际 的 curl 命令 请 参考 本 书 附 带 的 GitHub 资料 库 代 码 。 
@ 将 文本 VCF 文件 复制 到 Hadoop 上 。 
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日 运行 VCF 以 在 集群 范围 内 执行 ADAM (Parquet) 转换 。 


注意 我 们 指定 -coalesce 5 的 方式 。 这 会 保证 映射 任务 会 将 数据 压缩 为 少数 几 个 大 的 
Parquet 文件 。 接 着 在 ADAM shell 中 我 们 加 载 并 检查 对 象 ， 代 码 如 下 : 


import org.bdgenomics.adam.rdd.ADAMContext._ 
import org.bdgenomics.formats.avro.Genotype 


val genotypesRDD = sc.adamLoad[Genotype, Nothing]( 
"/user/ds/genomics/1kg/parquet") 
val gt = genotypesRDD.first() 


例如 对 每 个 与 CTCF 绑 定点 重 琶 的 基因 变 体 ， 我 们 来 计算 在 所 有 样本 上 少数 等 位 基因 出 现 
的 频率 。 本 质 上 ， 我 们 需要 把 上 一 节 中 的 CTCF 数据 和 1000 Genomes 项 目 中 的 基因 型 数 
据 进 行 联结 


val ctcfRDD = sc.adamNarrowPeakFeatureLoad( 
"/user/ds/genomics/chip-seq/GM12878.ChIP-seq.CTCF.narrowPpeak") 
val filtered = (BroadcastRegionJoin.partitionAndJoin( 
sc, CtcfRDD, genotypesRDD) © 
-map(_._2)) @ 


@ ”BroadcastRegionJoin 的 内 联结 实现 过 滤 。 
@ 这 个 mapper 最 后 产生 一 个 RDD[Genotype]。 


我 们 还 需要 一 个 输入 为 Genotype 并 计算 参考 / 替换 等 位 基因 个 数 的 函数 : 


def genotypeToAlleleCounts(gt: Genotype): (Variant, (Int, Int)) = { 
val counts = gt.getAlleles.map(allele match { 
case GenotypeAllele.Ref => (1, 0) 
case GenotypeAllele.Alt => (0, 1) 
case _ => (0, 0) 
}).reduce((x, y) => (x. 1 + y. 1，x. 2 + y._2)) 
(gt.getVariant, (counts. 1, counts._2)) 


} 
最 后 我 们 生成 一 个 RDD[(Variant，(Int，Int))] 并 进行 汇总 : 


val counts = filtered.map(genotypeToAlleleCounts) 
val countsByVariant = counts.reduceByKey( 
(Xx, y) => (x._1 + y. 1, xXx. 2 + y. 2)) 
val mafByVariant = countsByVariant.map(tup => { 
val (v, (r, a)) = tup 
valL n=r+a 
(v, math.min(r, a).toDouble / n) 
}) 


遍历 整个 数据 集 是 个 大 型 操作 。 因 为 我 们 只 用 到 基因 型 数据 中 的 几 个 字段 ， 所 以 进行 谓词 
下 推 和 投影 表 定 是 有 帮助 的 ， 这 可 以 作为 练习 留 给 读者 自行 完成 。 


A 
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10.5 “小 结 


许多 基因 学 方面 的 计算 都 很 适合 用 Spark 计算 模式 处 理 。 如 果 你 进行 实地 分 析 ，ADAM 这 
样 的 项 目 最 有 价值 的 贡献 是 提供 了 一 组 表示 底层 分 析 对 象 (及 其 转换 工具 ) 的 Avro 模式 。 
本 章 中 ， 我 们 看 到 只 要 将 数据 转换 成 相应 的 Avro 模式 ， 许 多 大 规模 计算 都 比较 容易 表达 
和 并 行 化 。 

虽然 基于 Hadoop/Spark 进行 科学 研究 的 工具 可 能 还 有 很 多 ， 但 现在 已 经 有 一 些 现成 的 项 目 
可 用 ,我 们 不 必 再 重新 发 明 轮 子 。 本 章 我 们 研究 了 ADAM 提供 的 核心 功能 ， 但 这 个 项 目 
已 经 实现 了 整个 GATK 最 佳 实践 中 的 管道 任务 ， 包括 BQSR、 插 入 和 缺失 突变 重新 比 对 、 
去 重 。 除 了 ADAM 之 外 ,许多 机 构 都 已 加 入 全 球 基因 学 和 健康 联盟 ， 这 个 组 织 也 开始 提 
供 它 自己 的 基因 分 析 模 式 。 西 奈 山 医学 院 的 震荡 实验 室 开 发 了 一 组 主要 用 于 致癌 基因 变 体 
研究 的 Guacamole 工具 。 所 有 这 些 工具 都 使 用 Apache v2 开源 许可 ， 大 家 可 以 自由 使 用 。 
如 果 你 在 工作 中 用 到 了 这 些 工 具 ， 别 忘 了 把 改进 建议 也 回馈 给 社区 哦 ! 
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基于 PySpatk 和 Thunder 的 神经 


图 像 数 据 分 析 


作者 : Uri Laserson 


人 类 大 脑 像 一 坨 凉 弱 ， 但 我 们 对 此 并 不 感 兴 趣 。 


随 着 影像 设备 和 自动 化 领域 的 技术 发 展 ， 大 脑 功能 数据 也 急剧 增长 。 过 去 的 实验 只 能 靠 在 
头 上 放 几 个 电极 来 收集 大 脑 产 生 的 时 间 序 列 数 据 ， 或 者 只 能 拿 到 大 脑 截面 的 几 张 静 态 图 


Alan Turing 


像 ， 而 今天 的 技术 能 够 在 一 个 不 小 的 机 体 活 跃 区 域 里 ， 在 大 量 神经 元 上 采集 大 脑 活动 数 


据 。 奥 巴 马 政府 也 已 经 签署 了 BRAIN 计划 。 为 了 推动 技术 进步 ， 该 计划 制定 了 宏伟 的 目 


标 ， 其 中 一 个 目标 是 同时 记录 很 长 一 段 时 间 内 每 个 老鼠 脑 神 经 的 电子 活动 。 测 量 技术 方面 
的 突破 固然 重要 ， 但 我 们 认为 该 计划 产生 的 数据 量 将 开创 生物 学 研究 的 新 范式 。 


本 章 将 介绍 PySpark API (http://spark.apache.org/docs/latest/api/python/)。 有 了 该 API， 我 
们 可 以 通过 Python 与 Spark 交互 。 本 章 还 会 介绍 Thunder 项 目 (http://thefreemanlab.com/ 


thunder/) ， 它 构建 在 PySpark 之 上 ， 目 的 是 处 到 


海量 时 间 序 列 数据 ， 特 别 是 处 理 神经 影像 


数据 。PySpark 是 一 个 特别 灵活 的 工具 ， 可 以 帮 有 我 们 进行 探索 式 的 大 数据 分 析 ， 它 紧密 集 
成 PyData 生态 系统 的 其 他 工具 ， 包 括 可 视 化 工具 matplotib， 甚 至 是 “可 执行 文档 ”工具 


IPython Notebook (Jupyter) 。 
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利用 这 些 工具 可 以 在 一 定 程 度 上 了 解 斑 马 鱼 的 大 脑 结 构 。 利 用 Thunder 可 以 对 斑马 鱼 大 脑 
的 不 同 区 域 (代表 不 同 神经 元 群 组 ) 进行 聚 类 ， 这 样 就 可 以 找到 斑马 鱼 随时 间 变 化 的 活动 
模式 。 


11.1 PySpark 简 介 


Python 具有 高 级 语法 并 且 有 很 多 工具 包 可 用 ， 所 以 很 多 数据 科学 家 都 喜欢 用 Python。 虽 然 
传统 上 Python 语言 很 难 和 JVM 集成 ， 但 鉴于 Python 对 数据 分 析 的 重要 性 ，Spark 生态 系 
统 开 始 致力 于 开发 Spark 的 Python API。 


Python 与 科学 计算 和 数据 科学 
在 科学 计算 和 数据 科学 领域 ， 人 们 偏爱 Python 工具 。 许 多 基于 MATLAB、R 或 
Mathematica 的 传统 应 用 都 迁移 到 Python 之 上 了 。 完 其 原因 ， 我们 总 结 出 如 下 几 个 
方面 : 
。 Python 是 一 门 高 级 语言 ， 使 用 简单 ， 学 起 来 也 容易 ; 
。 Python 包含 了 大 量 的 工具 包 ， 从 小 众 的 数值 计算 到 网 页 抓 取 工具 再 到 数据 可 视 化 工 
具 ， 它 无 所 不 包 ; 
。 Python 可 以 便捷 地 和 C/C++ 进行 交互 ,这 样 人 们 就 可 以 使 用 C/C++ 的 高 性 能 工具 包 ， 
比如 BLAS/LAPACK/ATLAS 等 。 


这 里 有 几 个 工具 需要 读者 特别 记 住 。 
。 Numpy/scipy/matplotlib 
这 三 个 工具 提供 了 MATLAB 的 典型 功能 ， 包 括 快速 矩阵 运算 、 科 学 计算 函数 ， 还 
提供 了 绘图 工具 ， 这 些 工具 被 广泛 使 用 ， 其 思想 也 源 于 MATLAB。 
。 pandas 
该 工具 的 功能 和 R 的 data.frame 类 似 ， 但 启动 效率 往往 要 比 data.frame 高 不 少 。 
。 scikit-learn/statsmodels 
这 两 个 工具 提供 了 高 质量 的 机 器 学 习 算 法 (分 类 /回归 、 聚 类 、 矩 阵 分 解 等 ) 的 实 
现 和 统计 模型 实现 。 
。 nltk 
一 个 深 受 欢迎 的 自然 语言 工具 。 
可 以 在 https://github.com/vinta/awesome-python 这 个 网 址 上 找到 大 量 其 他 Python 工 
具 包 。 


启动 PySpark 与 启动 Spark 一 样 : 


196 | 第 11 章 


export IPYTHON=1 # PySpark 也 可 使 用 IPython shell 
pyspark --master ... --num-executors ... © 


@ pyspark 的 输入 参数 和 Spark 的 spark-submit、spark-shell 参数 一 样 。 


可 以 用 spark-submit 来 提交 Python 脚本 ，spark-submit 能 根据 脚本 文件 的 扩展 名 .py 来 识 
别 脚本 。PySpark 支持 IPython shell， 只 要 设置 环境 变量 IPYTHON=1 即 可 ， 这 是 我 们 推荐 的 
做 法 。 当 Python 脚本 启动 时 ， 它 会 创建 一 个 Python 的 SparkContext 对 象 ， 我 们 通过 该 对 
象 和 集群 交互 。 创 建 好 SparkContext 之 后 ，PySpark API 的 用 法 和 Scala API 非常 类 似 。 比 
如 ， 要 加 载 CSV 数据 ， 我 们 可 以 这 样 做 : 


raw_data = sc.textFile('path/to/csv/data') # RDD[string] 
# 对 数据 进行 过 滤 , 按 有 逗 号 进行 拆 分 并 解析 浮 点 数 以 得 到 RDD[ Tlist[float]] 
data = (raw_data 
.filter(lambda x: x.startswith("#")) 
.map(Lambda x: map(float, x.split(',')))) 
data.take(5) 


和 Scala API 一 样 ， 我 们 先 加 载 一 个 文本 文件 ， 过 滤 掉 其 中 以 # 开 头 的 行 ， 然 后 将 CSV 
数据 解析 为 一 个 浮 点 数列 表 。 如 在 上 面 的 示例 代码 中 ， 我 们 向 filter 和 map 传递 函数 参 
数 所 示 ，Python 中 把 函数 作为 参数 进行 传递 的 方式 是 非常 灵活 的 。 传 递 函 数 时 需要 将 一 
个 Python 对 象 作 为 输入 并 且 返 回 一 个 Python 对 象 ( 对 于 示例 代码 中 的 filter 函数 而 言 ， 
返回 值 为 布尔 值 )。 传 递 国 数 时 唯一 的 限制 是 Python 对 象 必 须 能 用 cloudpickle 序列 化 
(cloudpickle 包含 了 匿名 lambda 函数 )， 并 且 函 数 闭 包 引 用 的 任何 模块 都 必须 能 在 Python 
执行 器 进程 的 PYTHONPATH 中 找到 。 为 了 确保 Python 执行 器 进程 找到 这 些 模块 ， 要么 在 整 
个 集群 上 安装 这 些 模块 并 在 Python 执行 器 进程 的 PYTHONPATH 中 加 入 它们 ， 要 么 由 Spark 显 
式 分 发 相应 的 ZIP/EGG 模块 文件 ， 这 样 Spark 会 在 分 发 之 后 将 它们 加 入 PYTHONPATH 中 。 显 
式 分 发 可 以 通过 调用 sc.addPyFile() 来 实现 。 


PySpark RDD 只 是 Python 对 象 的 RDD， 和 Python 列表 一 样 ，PySpark RDD 可 以 存储 混合 
类 型 对 象 〈 因 为 底层 所 有 对 象 都 是 Py0bject 类 型 的 )。 


PySpark API 的 发 布 会 一 定 程度 上 请 后 于 Scala API， 所 以 有 时 Scala 功能 会 更 早 发 布 。 除 
了 核心 API 之 外 ， 已 经 有 一 个 调用 MLlib 的 Python API 可 用 ， 比 如 Thunder 中 就 使 用 了 这 
个 API。 


深入 PySpark 
为 了 简化 调试 ， 同 时 也 为 了 让 读者 了 解 可 能 的 性 能 陷阱 ， 有 必要 介绍 一 些 PySpark 的 底层 
实现 ， 请 参见 图 11-1。 
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攻 Spark 
区 Context 


Om [jw 


11-1: PySpark 内 部 架构 


PySpark 的 Python 解释 器 在 启动 时 会 同时 启动 一 个 JYM，Python 解释 器 与 JVM 进程 之 
间 通 过 套 接 字 保持 通信 。PySpark 利用 Py4J 项 目 来 处 理 Python 解释 器 和 JVM 之 间 的 通 
信 。JVM 作为 实际 的 Spark 驱动 程序 会 加 载 一 个 JavaSparkContext，JavaSparkContext 和 
集群 中 的 Spark 执行 器 通信 。 接 着 ， 对 SparkContext 对 象 的 Python API 调用 会 被 翻译 为 对 
JavaSparkContext 对 象 的 Java API 调用 。 举 个 例子 ，PySpark 的 sc.textFile() 实现 将 调用 
分 派 给 JavaSparkContext 的 .textFile 方法 ， 该 方法 最 终 与 Spark 执行 器 的 JVM 通信 ， 从 
而 实现 从 HDFS 上 加 载 文本 数据 。 


集群 上 的 Spark 执行 器 为 每 个 CPU 核 启 动 一 个 Python 解释 器 ， 并 在 需要 执行 用 户 代 码 
时 通过 管道 与 这 个 解释 器 进行 数据 通信 。 在 本 地 PySpark 客户 端的 Python RDD 对 应 于 
本 地 JVM 内 的 一 个 PythonRDD 对 象 。 和 RDD 相关 的 数据 实际 上 是 以 Java 对 象 的 形式 保 
持 在 Spark 的 JVM 中 的 。 举 例 来 说 ， 在 Python 解释 器 中 运行 sc.textFile() 将 会 调用 
JavaSparkContext 的 textFile 方法 ， 该 方法 会 把 集群 中 的 数据 加 载 为 Java String 对 象 。 
类 似 地 ， 用 newAPIHadoopFile 加 载 一 个 Parquet/Avro 文件 会 把 对 象 加 载 为 Java Avro 对 象 。 


如 果 是 在 Python RDD 上 调用 API， 所 有 相关 代码 ( 即 Python 的 lambda 函数 ) 将 通过 
cloudpickle 进行 序列 化 并 分 发 到 执行 器 上 。 接 着 ， 代 码 的 序列 化 数据 由 Java 对 象 转 成 
Python 兼容 的 表示 形式 ( 即 pickle 对 象 ) 并 通过 一 个 管道 以 流 的 方式 传 给 执行 器 相关 的 
Python 解释 器 。 所 有 需要 Python 处 理 的 内 容 都 在 解释 器 中 执行 ， 结 果 数据 又 反 过 来 存储 
为 JVM 中 的 RDD (默认 为 pickle 对 象 ) 。 


相 比 Scala，Python 对 可 执行 代码 序列 化 的 内 置 支持 不 算 强 大 。 因 此 PySpark 的 作者 使 用 一 
个 定制 化 模块 “cloudpickle”。cloudpickle 由 PiCloud 项 目 开 发 ， 不 过 PiCloud 现在 已 不 活 
跃 了 。 
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用 IPython Notebook (Jupyter) 搭建 PySpark 


IPython Notebook 是 一 个 非常 好 的 探索 式 分 析 环 境 ， 可 以 用 作 支 持 运算 的 “实验 笔记 
本 ”。 用 户 可 以 把 文本 、 图 像 和 可 执行 代码 (代码 用 Python 语言 编写 ， 不 过 现在 也 可 
以 用 其 他 语言 编写 ) 集成 在 一 起 ， 并 且 支 持 托管 平台 等 特性 。 虽 然 IPython Notebook 
可 以 和 Spark 很 好 地 集成 ， 但 由 于 PySpark 要 按 特 定 方式 进行 初始 化 ， 所 以 配置 时 需 
要 小 心 ， 否 则 很 可 能 出 现 配 置 错误 。 如 果 想 了 解 更 多 详细 信息 ， 请 参看 博客 : http:/ 
blog.cloudera.com/blog/2014/08/how-to-use-ipython-notebook-with-apache-spark/。 


11.2 Thunder 工 具 包 概况 和 安装 


Thunder 示例 和 文档 


Thunder 包 的 文档 和 教程 写 得 非常 好 。 下 面 的 示例 引 自 Thunder 教程 和 它 所 提供 的 数 
据 集 。 


Thunder 是 Spark 上 的 一 个 的 Python 工具 集 ， 用 于 处 理 大 型 空间 /时 间 数 据 集 ( 即 大 型 多 
维和 矩阵 )。Thunder 大 量 使 用 NumPy 进行 矩阵 运算 ， 同 时 也 大 量 使 用 MLlib 工具 来 实现 某 
些 分 布 式 统计 技术 。 由 于 基于 Python ， 所 以 Thunder 非常 灵活 而 且 用 户 很 广 。 在 接 下 来 的 
一 节 ， 我 们 将 介绍 Thunder API 并 利用 MLlib 的 天 均值 算法 实现 对 神经 轨迹 进行 聚 类 ， 这 
里 的 天 均值 算法 实现 是 经 过 Thunder 和 PySpark 包装 过 的 版 本 。 


Thunder 依 赖 Spark 和 Python 工具 包 NumPy、SciPy、matplotlib 和 scikit-learn。 安装 
Thunder 非常 简单 ， 运 行 ptp install thunder-python 命令 即 可 。 不 过 安装 时 要 将 Git 资料 
库 本 身 签 出 ， 这 样 就 可 以 使 用 除 Spark 1.1 和 Hadoop 1.x 之 外 的 任何 部 分 (请 参考 下 面 附 
注 栏 中 的 说 明 )。Thunder 也 提供 了 一 些 脚 本 ， 用 于 简化 Amazon EC2 上 的 部 署 ， 这 些 脚 本 
在 传统 的 HPC 环境 下 也 验证 过 。 


Thunder 搭配 不 同 的 Hadoop/Spark 版 本 


堆 至 本 书写 作 时 ，Thunder 默认 基于 Hadoop 1.x 版 本 API 构建 ， 不 能 直接 基于 Hadoop 
2.x API 构建 (如 果 要 运行 YARN， 必 须 使 用 Hadoop 2.x)。 同 样 ， 通 过 pip 来 安装 
Thunder 也 是 基于 Hadoop 1.x 和 Spark 1.1， 因 为 此 时 包含 了 一 个 预 编译 好 的 Thunder 
JAR 文件 ， 这 个 文件 是 在 Hadoop 1.x 和 Spark 1.1 上 编译 的 。 如 果 要 在 Hadoop 2.x 上 
构建 Thunder， 请 修改 Thunder 库 中 的 scala/build.sbt 文件 ， 将 Hadoop 设 为 合适 的 版 
本 。Thunder 的 Hadoop 版 本 应 该 和 Spark 的 Hadoop 版 本 保持 一 致 (这 同样 需要 修改 
SBT 文件 ) 。 


安装 并 设置 完 SPARK_HOME 环境 之 后 ， 就 可 以 启动 Thunder: 
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$ export IPYTHON=1 # 像 往常 一 样 推荐 
$ thunder 


[...some logging output...] 
Welcome to 
Ey 
a ese 


/1/. 八 ，/ /1 八 \ verston 1.1.0 
/_/ 


Using Python version 2.7.6 (default, Apr 9 2014 11:54:50) 
SparkContext available as sc. 


Running thunder version 0.5.0_dev 
A thunder context is available as tsc 


In [1]: 


这 说 明 thunder 命令 基本 上 就 是 把 PySpark 包装 了 一 下 。 和 PySpark 类 似 ， 大 部 分 计算 都 
是 从 ThunderContext 类 型 的 变量 tsc 开始 ，tsc 用 一 些 Thunder 特有 的 功能 对 Python 的 
SparkContext 进行 了 包装 。 


11.3 用 Thunder 加 载 数据 


Thunder 在 设计 的 时 候 特别 考虑 了 神经 影像 数据 集 ， 因 此 比较 适合 分 析 那 些 通常 随时 间 变 
化 的 大 型 影像 数据 集 。 


我 们 先 加 载 样 例 数据 集中 的 一 些 斑 马 鱼 大 脑 图 像 。 这 些 样 例 数据 来 自 Thunder 资料 库 ， 目 
录 为 python/thunder/utils/data/fish/tif-stack (https://github.com/thunder-project/thunder/tree/master/ 
thunder/utils/data/fish/)。 为 了 演示 方便 ， 本 章 示 例 的 数据 集 只 是 原 数据 集 的 很 小 一 部 分 。 
完整 的 数据 集 可 以 通过 AWS 得 到 ， 比 如 我 们 通过 调用 ThunderContext.LoadExampLeEC2() 
国 数 得 到 完整 的 数据 集 。 斑 马 鱼 是 生物 学 研究 普遍 采用 的 模式 生物 ， 它 个 体 小 ， 繁 殖 快 ， 
可 用 作 状 椎 动物 培育 的 模式 生物 。 人 们 对 斑马 鱼 的 兴趣 也 源 自 它 超 快 的 繁殖 能 力 。 由 于 斑 
马 鱼 是 透明 的 ， 大 脑 不 大 ， 在 神经 科学 研究 中 基本 上 可 以 对 其 整个 大 脑 摄 取 图 像 ， 而 且 这 
些 图 像 的 高 分 辨 率 高 到 足以 区 分 个 体 神 经 元 的 程度 。 下 面 是 加 载 数据 集 的 代码 ; 


path_to_images = ( 
'path/to/thunder/python/thunder/utils/data/fish/tif-stack') 

imagesRDD = tsc.loadImages(path_to_images, 
inputformat='tif-stack') @ 


print imagesRDD 
print imagesRDD.rdd 


<thunder .rdds.images.Images object at 0x109aa59d0> 
PythonRDD[8] at RDD at PythonRDD.scaLa:43 
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@ tif-stack 是 一 种 图 像 格式 ， 每 个 文件 在 = 维度 上 可 以 有 多 个 平面 影像 。 


这 创建 了 一 个 Images 对 象 ， 它 最 终 封 装 了 一 个 RDD， 这 个 RDD 可 以 通过 imagesRDD. 
rdd 来 访问 。 Images 对 象 对 外 也 提供 了 几 个 相似 的 相关 功能 (比如 count、take 等 )。 在 
Images 内 部 ， 对 象 以 键 - 值 对 的 形式 存放 。 


print imagesRDD.first() 


(0, array([[[26, 25], 
[26，25]， 
[26，25]， 
[26，26] ， 
[26, 26], 
[26, 26]], 
[[25，25]， 
[25, 25], 
[25, 25], 
[26, 26], 
[26 ， 26] ， 
[26, 26]]], dtype=uint8)) 


键 为 6 对 应 数据 集中 第 零 个 图 像 〈 按 数据 目录 的 字母 顺序 排列 ) ， 值 是 对 应 图 像 的 一 个 
NumPy 数组 。Thunder 中 所 有 的 核心 数据 类 型 最 终 都 是 键 - 值 对 的 Python RDD， 其 中 键 
是 某 种 元 组 而 值 为 NumPy 数组 。 即 使 PySpark 通常 允许 异 构 集合 的 RDD, RDD 中 所 有 键 
和 值 的 类 型 也 都 相同 。 由 于 这 种 同 构 性 ，Images 对 象 对 外 提供 了 描述 底层 图 像 的 一 个 属 
性 .dims : 


print imagesRDD.first()[1].shape © 
(76, 87, 2) 日 
print imagesRDD.dims @ 


Dimensions: min=(0, 0, 0), max=(75, 86, 1), count=(76, 87, 2) 
print imagesRDD.nimages 


20 


TI 


@ 由 第 一 个 键 - 值 对 组 成 的 NumPy 数组 的 维度 信息 。 
@ 这 个 RDD 中 数据 对 应 的 Thunder Dimensions 对 象 。 
@ RDD 中 每 个 “图 像 ”实际 上 是 由 两 个 76 x 87 的 图 像 组 成 的 又 层 。 


我 们 的 数据 集 由 20 个 “图 像 ”组 成 ， 每 个 图 像 都 是 一 个 76x 87 x2 的 登 层 。Thunder 提供 
了 Dimensions 对 象 ， 可 以 用 它 得 到 RDD 中 数据 的 维度 信息 。 
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像素 、 体 元 和 又 层 

“像素 ”(pixel) 一 词 是 “图 像 元 素 ”(picture element) 两 个 词 构成 的 合成 词 。 数 字 图 
像 可 以 简单 建 模 为 二 维 (2D) 给 阵 ， 引 阵 中 每 个 元 素 即 为 一 个 像素 ， 其 值 代 表 颜 色 的 
强度 〈 一 张 彩色 图 片 需要 三 个 这 样 的 矩阵 来 表示 ， 分 别 代表 红色 、 绿 色 和 蓝 色 )。 但 大 
脑 是 三 维 的 ， 单 个 2D 切面 很 难 捕捉 大 脑 的 活动 。 有 多 种 技术 可 以 处 理 这 个 问题 ， 有 
的 将 不 同 平面 上 的 多 个 2D 图 像 扒 二 在 一 起 ( 即 一 个 z 登 层 )， 有 的 其 至 直接 生成 3D 
信息 (比如 光 场 显 微 技 术 )。 这 最 终 会 产生 一 个 3D 的 强度 矩阵 ， 每 个 值 代表 一 个 立体 
元 素 或 体 元 。 同 样 ，Thunder 根据 特定 的 数据 类 型 也 把 所 有 图 像 建 模 成 2D 或 3D 矩阵 ， 
并 且 能 够 识别 像 .tiff 这 样 的 文件 格式 ，.tiff 格式 能 原生 的 表示 3D 梧 层 。 


用 Python 写 代码 的 一 个 特点 就 是 我 们 在 操作 RDD 时 能 轻松 进行 可 视 化 。 这 里 我 们 使 用 功 
能 强大 的 matplotlib 工具 包 ( 见 图 11-2)。 


import matplotlib.pyplot as plt 

img = imagesRDD.values().first() 

plt.imshow(img[:, : ,0], interpolation='nearest', aspect='equal', 
cmap='gray') 


0 10 20 30 40 50 60 70 80 


11-2: 原生 斑马 鱼 数据 的 一 个 切面 


Images API 提供 强大 的 分 布 式 图 像 处 理 能 力 ， 比 如 对 每 个 图 像 进行 二 次 采样 (如 图 11-3) : 


subsampled = imagesRDD.subsample((5, 5, 1)) © 


plt.imshow(subsampled.first()[1][:, : ,0], interpolation='nearest', 
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aspect='equal', cmap='gray') 
print subsampLed.dims 


Dimensions: min=(0, 0, 0), max=(15, 17, 1), count=(16, 18, 2) 


@ 第 一 行 我 们 直接 对 三 个 维度 进行 采样 ， 这 里 只 用 了 一 行 代码 ， 注 意 这 是 一 个 RDD 操 
作 ， 所 以 该 行 代码 立即 返回 ， 只 有 等 到 出 现 RDD 行动 时 才 触 发 实际 的 计算 。 


0 =， 10 15 


11-3; 对 斑马 鱼 数据 进行 二 次 采样 得 到 的 一 个 切面 


虽然 分 析 图 像 集合 对 某 些 操作 是 有 用 的 〈 比 如 对 图 像 进行 某 种 归 一 化 )， 但 它 很 难处 理 图 
像 之 间 的 时 间 关 系 。 


seriesRDD = imagesRDD.toSeries() 


这 个 操作 把 数据 大 规模 重组 为 一 个 Series 对 象 。Series 是 一 个 键 一 值 对 的 RDD， 键 是 每 
个 图 像 的 坐标 元 组 (也 就 是 体 元 标识 符 )， 值 是 一 个 代表 时 间 序 列 的 一 维 NumPy 数组 


print seriesRDD.dims 
print seriesRDD.index 
print seriesRDD.count() 


Dimensions: min=(0, 0, 0), max=(75, 86, 1), count=(76, 87, 2) 
[0 1 2 3 4 5 6 7 8 91011 12 13 14 15 16 17 18 19] 
13224 
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imagesRDD 是 包含 20 个 带 有 维度 (76 x 87 x2) 的 图 像 ，seriesRDD 包含 13 224 (76x87x2) 


个 长 度 为 20 


的 时 间 序 列 。 同 时 请 注意 ， 执 行 seriesRDD.dims 会 生成 一 个 作业 ， 因 为 我 们 只 


有 通过 对 Series 对 象 的 所 有 键 - 值 进 行 分 析 才 能 得 出 维度 信息 。seriesRDD.index 属性 是 一 
个 Pandas 风格 的 索引 ， 可 以 用 它 引用 每 个 数组 。 因 为 原始 图 像 是 三 维 的 ， 所 以 键 是 三 元 组 : 


print seriesRDD.rdd.takeSample(False, 1, 0)[0] 


((30, 84, 1), array([35, 35, 35, 35, 35, 35, 35, 35, 34, 34, 
34, 35, 35, 35, 35, 35, 35, 35, 35, 35], dtype=uint8)) 


Series API 提供 许多 时 序 运算 方法 ， 这 些 方 法 可 以 在 单个 时 间 序 列 上 进行 计算 ， 也 可 以 对 
所 有 的 时 间 序 列 进行 计算 ， 比 如 : 


print seriesRDD.max() 


array([158, 152, 145, 143, 142, 141, 140, 140, 139, 139, 140, 140, 
142, 144, 153, 168, 179, 185, 185, 182], dtype=uint8) 


上 面 的 代码 在 每 个 时 间 点 上 计算 所 有 体 元 的 最 大 值 。 


stddevRDD = seriesRDD.seriesStdev() 
print stddevRDD.take(3) 
print stddevRDD .dims © 


[((0, 0, 0), 0.4), ((1, 0, 0), 0.0), ((2, 0, 0), 0.0)] 
Dimensions: min=(0, 0, 0), max=(75, 86, 1), count=(76, 87, 2) 


上 面 的 代码 计算 每 个 时 间 序 列 的 标准 差 并 且 返 回 结 果 RDD，RDD 中 保留 了 所 有 键 。 


@ 该 属性 自动 从 父 RDD 继承 过 来 ， 所 以 这 时 并 不 需要 Spark 计算 ， 因 为 我 们 已 经 对 
seriesRDD 计算 出 了 Dimension。 


也 可 以 在 本 


出 将 Series 重新 包装 为 Dimension 形式 (这 里 为 76Xx 87x2): 


repacked = stddevRDD.pack() 

plt.imshow(repacked[:,:,0], interpolation='nearest', cmap='gray', 
aspect='equal') 

print type(repacked) 

print repacked.shape 


<type "numpy.ndarray ' > 


(76，87 


Ea 2) 


这 时 我 们 就 可 以 用 同样 的 空间 关系 绘制 每 个 体 元 的 标准 差 (如 图 11-4 所 示 )。 应 该 注意 不 
要 向 客户 端 返回 太 多 数据 ， 因 为 这 样 会 占用 很 多 带宽 和 内 存 资源 。 


0 10 20 30 40 50 60 70 80 


11-4: 原始 斑马 鱼 数据 中 每 个 体 元 的 标准 差 
同样 ， 可 以 通过 绘制 中 部 的 时 间 序 列 来 直接 观察 一 下 这 些 时 间 序 列 (如 图 11-5 所 示 ) : 


plt.plot(seriesRDD.center().subset(50).T7) 


15 


11-5: 中 部 的 时 间 序 列 的 50 个 随机 样本 子 集 
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在 每 个 序列 上 应 用 任何 用 户 定义 函数 也 非常 容易 。 只 要 使 用 apply 方法 ，apply 底层 会 调 
用 RDD 的 .values().map(): 


seriesRDD.apply(lambda x: x.argmin()) 


Thunder 核 心 数 据 类 型 

更 一 般 地 说 ，Thunder 的 两 个 核心 数据 类 型 Series 和 Images 都 继承 自 Data 类 型 ， 而 Data 内 前 
封装 了 一 个 Python RDD 对 象 并 对 外 提供 部 分 RDD API。Data 类 代表 键 - 值 对 的 RDD， 键 是 
语义 标识 符 〈 比 如 空间 坐标 元 组 )， 值 是 一 个 由 实际 值 组 成 的 NumPy 数组 。 比 如 ， 对 Images 
对 象 而 言 ， 键 可 以 是 一 个 时 间 点 ， 值 是 以 NumPy 格式 数组 存放 的 该 时 间 点 的 图 像 。 对 Series 
对 象 而 言 ， 键 可 以 是 一 个 相应 体 元 坐标 的 n 维 元 组 ,， 值 是 表示 该 体 元 时 间 序 列 度量 的 一 维 
NumPy 数组 。Series 中 所 有 数组 的 维度 必须 相同 。 下 面 我 们 给 出 该 对 象 的 几 个 常用 API; 
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class Data: 
property dtype: 
# 这 个 RDD 的 值 的 Numpy 数 组 的 dtype 


# 此 处 定义 了 许多 RDD 的 方法 ,比如 first()、count()、cache() 等 


# 此 处 定义 了 许多 数组 汇总 方法 ,比如 mean() 和 variance() 等 
# 这 些 方法 中 dtype 是 不 变 的 


class Series(Data): 
property dims: 


# 延迟 计算 Dimension 对 象 . 该 RDD 属 性 索引 的 键 中 编码 了 空间 维度 信息 


property index: 


# 一 组 Pandas Series 对 象 风格 的 数组 下 标 , 采 用 Pandas Series 对 象 样式 


# 此 处 定义 了 许多 在 集群 中 并 行 处 理 所 有 一 维 数 组 的 方法 ,比如 
# normaLize() detrend() .seLect() 和 apptLy() ,这 些 方法 中 dtype 是 不 变 的 


# 此 处 定义 了 并 行 汇总 方法 ,比如 seriesMax() 和 seriesSstdev() 等 
# 这 些 方法 改变 了 dtype 


def pack(): 
# 在 客户 端 收集 数据 并 从 稀 玻 的 RDD 表 示 重 新 包装 为 稠密 的 NumPy 数 组 , shape 和 dims 对 应 


class Images(Data) : 
property dims: 


# Dimension 对象 , 与 每 个 值 数 组 的 shape 参 数 对 象 的 NumPy shape 参 数 对 应 


property nimages: 


# RDD 中 图 像 的 个 数 ; 延迟 执行 RDD 的 count 操 作 


# 多 个 对 图 像 进行 汇总 或 处 理 的 并 行 方法 
# 比如 maxProjection()、subsampLe()、subtract() 和 appLy() 


def toSeries(): 
# 将 数据 重新 组 织 为 一 个 Series 对 象 
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通常 ， 同 样 的 数据 集 既 可 表示 为 Images 对 象 也 可 表示 为 Series 对 象 ， 这 两 个 对 象 之 间 可 
以 通过 shuffle 操作 (代价 可 能 非常 高 ) 进行 相互 转换 ( 跟 行 式 与 列 式 表示 相互 转换 类 似 )。 


Thunder 的 Data 可 以 持久 化 为 一 组 图 像 ， 按 图 像 文 件 名 的 字母 序 排序 。 也 可 以 持久 化 为 一 
组 Series 对 象 的 二 元 一 维 数组 。 要 了 解 更 多 细 市 请 参考 文档 。 


11.4 用 Thunder 对 神经 元 进行 分 类 

在 本 节 示 例 中 ， 我 们 将 使 用 均值 算法 对 不 同 的 斑马 鱼 时 间 序 列 进 行 聚 类 。 肾 类 之 后 这 些 
时 间 序 列 将 变 成 几 个 大 类 用 以 描述 不 同类 型 的 神经 行为 。 我 们 将 使 用 GitHub 资料 库 上 存 
储 的 Series 数据 ， 该 数据 比 之 前 我 们 使 用 的 图 像 数据 要 大 。 但 是 这 些 数据 的 空间 分 辩 率 很 
低 ， 不 足以 区 分 神经 元 个 体 。 


首先 我 们 来 加 载 数据 : 


seriesRDD = tsc.LoadSeries( 
'path/to/thunder/python/thunder/utils/data/fish/bin') 

print seriesRDD.dims 

print seriesRDD.index 


Dimensions: min=(0, 0, 0), max=(75, 86, 1), count=(76, 87, 2) 


[0 1 2 3 4 5 6 ... 234 235 236 237 238 239] 
结果 表明 图 像 的 维度 和 之 前 一 样 ， 但 时 间 点 由 20 个 变 成 了 240 个 。 为 了 得 到 最 好 的 聚 类 
结果 ， 我 们 要 对 特征 进行 归 一 化 。 


normalizedRDD = seriesRDD.normalize(baseline='mean') © 


于 


@ 这 里 的 选项 baseline='mean' 在 文档 里 找 不 到 说 明 。Thunder 代码 很 清晰 ， 很 多 时 候 其 
代码 就 可 以 隐 含 地 表达 我 们 的 意图 ， 而 不 用 我 们 特别 注释 。 


现在 我 们 绘制 一 些 时 间 序 列 图 来 看 看 这 些 时 间 序 列 的 情况 。 使 用 Thunder 可 以 在 RDD 上 
随机 采样 并 按 一 定 标准 (比如 默认 的 最 小 标准 差 ) 对 集合 元 素 进 行 过 滤 。 为 了 选择 一 个 合 
适 的 阔 值 ， 首 先 来 计算 每 个 时 间 序 列 的 stddev， 然 后 对 10% 的 样本 值 绘制 直方 图 (如 图 
11-6 所 示 ) : 


stddevs = (normalizedRDD 
.SeriesStdev() 
.values() 
.sample(False, 0.1, 0) 
.collect()) 

plt.hist(stddevs, bins=20) 
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11-6: 体 元 标准 差分 布 
知道 了 标准 差 ， 我 们 选择 国 值 为 0.1， 以 便 能 得 到 大 部 分 “活跃 ”的 序列 ( 见 图 11-7) : 


plt.plot(normalizedRDD.subset(50, thresh=0.1, stat='std').T) 
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11-7: 基于 标准 差 的 50 个 最 活跃 的 时 间 序列 
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现在 我 们 对 数据 有 了 一 定 了 解 ， 最 后 再 来 将 体 元 聚 类 成 不 同行 为 模式 。Thunder 为 RDD 实 
现 了 一 个 类 似 于 scikit-learn 风格 的 API。 有 些 情况 下 ，Thunder 使 用 的 是 自己 的 实现 〈 比 
如 矩阵 分 解 代 码 )。 我 们 这 里 的 示例 中 ，Thunder 的 天 均值 功能 调用 的 是 MLlib Python 
API。 下 面 对 多 个 大 值 运 行 玉 均值 聚 类 ; 


from thunder import KMeans 

ks = [5, 10, 15, 20, 30, 50, 100, 200] 

models = [] 

for k in ks: 
models.append(KMeans(k=k).fit(normalizedRDD)) 


现在 对 每 个 复 计 算 两 个 简单 的 误差 指标 。 第 一 个 指标 简单 地 把 时 间 序 列 到 复 中 心 的 欧 氏 距 
离 求 和 。 第 二 个 指标 是 KMeansModel 对 象 的 一 个 内 置 指标 : 


def model_ error_1(model): 
def series error(series): 
cluster_id = model.predict(series) 
center = model.centers[cluster_id] 
diff = center - series 
return diff.dot(diff) ** 0.5 


return (normalizedRDD 
.apply(series error) 


.Sum()) 


def model_error_2(model): 
return 1. / model.similarity(normalizedRDD).sum() 


我 们 对 每 个 k 值 都 计算 这 两 个 指标 并 将 结果 绘制 成 图 11-8: 


import numpy as np 
errors 1 = np.asarray(map(model_ error_1, models)) 
errors_2 = np.asarray(map(model_ error_2, models)) 
plt.plot( 

ks, errors_1 / errors_1.sum(), 'k-o', 

ks, errors 2 / errors 2.sum(), 'b:v') 
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0 50 100 150 200 
k 


11-8: 以 k 为 变量 的 K 均 值 误差 指标 函数 (黑色 圆 点 是 model_error 1， 蓝 色 三 角形 代表 model_error_2) 


我 们 预期 这 些 指标 通常 是 的 单调 函数 ， 曲 线 看 起 来 在 三 20 点 有 一 个 明显 的 拐点 。 现 在 
我 们 把 从 数据 中 学 习 得 到 的 类 竹中 心 画 出 来 ， 如 图 11-9 所 示 : 


model20 = models[3] 
plt.plot(model20.centers.T) 
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图 11-9: 上 E20 时 的 模型 中 心 


210 | 第 11 章 


给 不 同类 簇 的 体 元 分 配 不 同 颜 色 并 绘制 


图 像 本 身 也 很 简单 ， 结 果 如 图 11-10 所 示 : 


from matplotlib.colors import ListedColormap 
by_cluster = model20.predict(normalizedRDD) .pack() 
cmap_cat = ListedColormap(sns.color_palette("hls", 10), name='from_list') 


plt.imshow(by_cluster[:, 


aspect='equal', cmap='gray') 


:, 0], interpolation='nearest', 


0 10 20 30 40 50 60 70 80 


11-10: 不 同类 艇 的 体 元 分 配 不 同 颜 色 的 三 维 像素 图 


从 图 中 很 显然 可 以 看 
如 果 原 始 数 据 分 辨 率 高 到 足以 看 清 ， 


间 序 列 可 再 月 


11.5 小结 


Thunder 项 


分 解 、 


回归 /分 类 和 可 视 化 模块 。Thunder 项 


日 ， 学 习 模 型 得 到 的 聚 类 一 定 程 度 上 刻画 了 斑马 鱼 大 脑 的 解剖 结构 。 
细胞 结构 ， 我 们 就 可 以 先 对 体 元 进行 天 均值 聚 类 ， 其 
中 大 等 于 图 像 数据 中 神经 元 的 估计 个 数 。 然 后 ， 再 定义 每 个 神经 元 的 时 间 序 列 ， 而 这 些 时 
日 来 聚 类 以 确定 神经 元 的 不 同 功 入 


目 还 比较 年 轻 ， 但 功能 已 经 比较 丰富 。 除 了 时 间 序 列 统计 和 聚 类 ， 它 还 包含 矩阵 


目的 文档 和 教程 写 得 非常 好 ， 涵 盖 的 功能 也 很 


多 。 如 果 想 了 解 Thunder 的 使 用 ， 可 以 看 一 下 Thunder 作者 在 2014 年 7 月 的 Nature Method 
杂志 上 发 表 的 文章 (http:/www.nature.com/nmeth/journal/v11/n9/abs/nmeth.3041.html) 。 
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附录 A 
Spark 进 阶 


作者 : Sandy Ryza 


若 想 会 写 Spark 程序 ， 就 必须 理解 Spark 的 转换 、 行 动 和 RDD。 但 若 想 写 好 Spark 程序 ， 
就 必须 理解 Spark 的 底层 执行 模型 。 只 有 这 样 才能 领悟 Spark 程序 的 性 能 特点 ， 才 能 在 程 
序 出 错 或 运行 缓慢 的 时 候 进 行 调 试 ， 才 能 理解 Spark 的 用 户 接口 。 


一 个 Spark 程序 由 一 个 驱动 程序 (driver) 进程 和 一 组 散布 在 集群 各 节点 上 的 执行 程序 
(executor) 进程 组 成 。 对 于 spark-shell 来 说 ， 这 个 驱动 程序 进程 就 是 与 用 户 交互 的 进程 ， 
它 负责 控制 作业 的 高 层 流 程 。 执 行程 序 进程 负责 以 任务 的 形式 执行 作业 ， 同 时 也 负责 根据 
用 户 要 求 将 数据 存 和 缓存。 驱动 程序 和 执行 程序 通常 在 整个 应 用 运行 期 间 都 存在 。 一 个 执 
行程 序 对 应 一 定数 量 的 档 口 (slot) 可 供 运 行 任务 ， 在 执行 程序 的 生命 周期 内 会 同时 运行 


多 个 任务 。 


执行 模型 的 最 上 层 是 作业 。 在 Spark 应 用 程序 内 调用 行动 时 会 触发 Spark 作业 来 执行 行动 。 
要 确定 作业 的 基本 信息 ，Spark 会 检查 行动 的 RDD 依赖 关系 图 并 生成 执行 计划 ， 执 行 计划 
从 依赖 关系 中 最 靠 前 的 RDD 开始 ， 将 依赖 关系 路 径 上 的 RDD 全 部 汇集 起 来 ， 以 得 到 行动 
的 结果 。 执 行 计划 将 作业 的 转换 部 分 组 装 成 阶段 。 每 个 阶段 对 应 一 组 任务 ， 这 些 任务 在 不 
同 的 数据 分 区 上 执行 的 代码 相同 。 每 个 阶段 包含 一 系列 转换 ， 每 个 阶段 内 的 转换 在 执行 时 
不 会 对 全 体 数据 进行 shuffle。 


那么 Spark 依据 什么 来 判断 是 否 需要 对 数据 进行 shuffle 呢 ? 对 map 等 窄 依赖 转换 所 返回 的 


加 
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RDD， 计 算 一 个 分 区 所 需 的 数据 都 在 父 RDD 的 一 个 分 区 内 。 每 个 对 象 只 依赖 父 RDD 的 
一 个 对 象 。 但 是 ，Spark 也 支持 宽 依 赖 转换 ， 比 如 groupByKey 和 reduceByKey。 宽 依赖 中 
计算 一 个 分 区 所 需 数据 来 自 父 RDD 中 多 个 分 区 。 为 完成 这 些 操 作 ，Spark 必须 执行 一 次 
shuffle，shuffle 将 数据 在 集群 内 传输 并 得 到 一 个 新 阶段 ， 这 个 新 阶段 有 一 组 新 分 区 。 


比如 下 面 的 代码 执行 时 只 包含 一 个 阶段 ， 原 因 就 是 三 个 操作 的 输出 数据 的 分 区 和 输入 数据 
的 分 区 都 相同 ; 


sc.textFile("someFile.txt"). 
map(mapFunc). 
flatMap(flatMapFunc). 
filter(filterFunc). 
count() 


在 下 面 的 代码 中 ， 我 们 要 找到 在 一 个 文本 文件 中 出 现 次 数 超过 1000 的 单词 中 每 个 字母 的 
出 现 次 数 。 这 段 代码 将 分 成 三 个 阶段 执行 ， 由 于 计算 操作 reduceByKey 的 输出 需要 按 数据 
的 键 对 数据 进行 重新 分 区 ， 所 以 reduceByKey 将 导致 产生 新 的 阶段 : 


val tokenized = sc.textFile(args(0)).flatMap(_.split(' ')) 

val wordCounts = tokenized.map((_, 1)).reduceByKey(_ + _) 

val filtered = wordCounts.filter(_._2 >= 1000) 

val charCounts = filtered.flatMap(_._1.toCharArray).map((_, 1)) 
reduceByKey(_ + _) 

charCounts.collect() 


在 每 个 阶段 的 边界 处 ， 数 据 被 父 阶段 中 的 任务 写 和 磁盘， 然后 由 子 阶 段 中 的 任务 通过 网 络 
读 取 。 因 此 阶段 边界 代价 很 高 ， 应 该 尽 可 能 避免 。 父 阶段 的 数据 分 区 数 与 子 阶段 的 分 区 数 
可 以 不 同 。 对 那些 可 能 触发 新 阶段 边界 的 转换 来 说 ， 它 们 通常 会 接收 一 个 numPartitions 
参数 ， 这 个 参数 决定 数据 在 子 阶段 中 的 分 区 数 。 和 MapReduce 作业 中 reducer 的 个 数 对 
MapReduce 作业 的 调 优 一 样 ， 阶 段 边 界 的 分 区 数 对 应 用 性 能 至 关 重 要 。 分 区 数 太 少 会 导 
致 每 个 任务 处 理 的 数据 量 太 多 从 而 拖 慢 作业 执行 速度 。 由 于 聚合 运算 在 数据 不 能 全 部 放 和 人 
内 存 时 会 谥 写 磁盘 ， 所 以 一 个 任务 的 执行 时 间 往 往 和 分 配给 它 的 数据 量 呈 非 线性 关系 。 同 
时 ， 分 区 数 太 多 将 导致 父 阶段 中 按 父 分 区 对 记录 排序 时 的 开销 增加 ， 也 会 导致 子 阶段 里 调 
度 和 启动 任务 相关 的 开销 更 大 。 


A.1 序列 化 


作为 一 个 分 布 式 系统 ，Spark 常常 需要 对 运算 中 的 原始 Java 对 象 进行 序列 化 。 当 需要 以 序 
列 化 的 形式 缓存 数据 ， 或 在 shuffle 时 利用 网 络 传输 数据 时 ，Spark 需要 将 RDD 的 内 容 表 
示 为 字 节 疲 。Spark 允许 以 可 播 拔 的 方式 对 序列 化 和 反 序 列 化 设置 一 个 Serializer。Spark 
默认 使 用 Java 语言 的 Object Serialization 技术 。 只 要 对 象 实现 了 Serializable 接口 ， 该 
技术 就 可 以 对 其 进行 序列 化 。 但 是 我 们 一 般 会 推荐 大 家 在 Spark 中 使 用 Kryo 序列 化 技术 。 
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Kryo 的 序列 化 形式 更 加 紧凑 而 且 反 序列 化 的 速度 快 得 多 。 要 实现 这 个 效果 ， 关 键 是 要 首先 
向 Kryo 注册 应 用 所 需 的 全 部 定制 类 。 如 果 不 注 册 ，Kryo 也 不 出 错 ， 但 序列 化 将 占用 更 多 
空间 和 时 间 ， 因 为 每 条 记录 之 前 还 必须 写 入 类 的 名 字 。 开 启 Kryo 并 注册 类 的 代码 如 下 : 


val conf = new SparkConf().setAppName("MyApp") 
conf.registerKryoClasses( 
Array(classOof[MyCustomClass1], classof[MyCustomClass2])) 


也 可 以 通过 配置 文件 向 Kryo 注册 类 。 如 果 使 用 spark-shell， 只 能 通过 配置 文件 进行 Kryo 
注册 。 我 们 可 以 在 spark-defaults.conf 中 加 入 如 下 内 容 进行 配置 : 


spark.kryo.classesToRegister=org.myorg.MyCustomClass1,org.myorg.MyCustomClass2 
spark.serializer=org.apache.spark.serializer.KryoSerializer 


Spark 之 上 的 工具 (比如 GraphX 和 MLlib) 可 能 有 自己 的 定制 类 ， 可 以 用 如 下 Spark 工具 
方法 来 进行 注册 : 


GraphXUtils.registerKryoClasses(conf) 


A.2 累加 器 


Spark 的 累加 器 用 于 在 作业 运行 的 同时 收集 某 些 统计 信息 。 每 个 任务 执行 时 能 增加 累加 器 
的 值 ， 驱 动 程序 也 能 读 取 累 加 器 的 值 。 比 如 ， 累 加 器 可 以 用 于 计算 作业 中 非法 记录 的 条 数 
或 优化 过 程 中 的 阶段 累积 误差 。 


举 个 例子 ，Spark MLlib 工具 的 天 均值 聚 类 实现 就 利用 了 累加 器 来 计算 优化 过 程 中 的 阶段 
累积 误差 。 算 法 的 每 次 迭代 过 程 开 始 时 赋予 一 组 徐 群 中 心 ， 然 后 使 用 这 些 复 群 中 心计 算 一 
组 新 的 复 群 中 心 。 算 法 要 优化 的 聚 类 成 本 函数 是 每 个 点 到 最 近 禾 群 中 心 的 距离 之 和 。 为 了 
确定 算法 何 时 退出 ， 需 要 在 把 点 归 到 相应 徐 群 之 后 计算 该 成 本 函数 : 


var prevCost = Double.MaxValue 
var cost = 0.0 
var clusterCenters = initialCenters(k) 
while (prevCost - cost > THRESHOLD) { 
val costAccum = sc.accumulator(0, "Cost") 
clusterCenters = dataset.map { 
// 找到 一 个 点 的 最 近 复 群 中 心 点 并 计算 点 与 最 近 簇 群 中 心 的 距离 
val (newCenter, distance) = CLosestCenterAndDistance(_， 
clusterCenters) 
costAccum += distance 
(newCenter, _) 


}.aggregate( /* 对 分 配给 某 个 敌 群 中 心 的 所 有 点 求 平均 */ ) 


prevCost = cost 
cost = costAccum.value 


} 
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该 示例 中 累加 器 的 add 函数 是 整数 的 加 法 ， 累 加 器 也 能 支持 其 他 满足 结合 律 的 国 数 ， 比 如 
对 集合 求 并 集 。 


任务 只 有 在 第 一 次 运行 时 才能 修改 累加 器 。 举 个 例子 ， 如 果 一 个 任务 顺利 执行 完成 ， 但 由 
于 该 任务 的 输出 结果 丢失 需要 重新 运行 任务 ， 这 时 任务 就 不 能 再 次 增加 累加 器 的 值 。 


如 果 没 有 累加 器 ， 要 得 到 相同 结果 需要 缓存 RDD 并 且 需 要 在 RDD 上 运行 另 一 个 行动 。 有 


人 也 不 用 执行 另 一 个 作业 ， 这 样 得 到 相同 结果 的 效率 就 大 大 提 
。 从 这 个 意义 上 看 累加 器 是 一 种 优化 。 


A.3 Spark 与 数据 科学 家 的 工作 流 


有 几 个 Spark 转换 和 行动 对 探索 和 认识 新 数据 集 特别 有 用 。 这 些 算 子 中 有 些 用 到 随机 函数 ， 
有 些 情况 下 需要 使 用 一 个 随机 种 子 来 保证 结果 的 确定 性 ， 比 如 在 任务 结果 发 生 丢 失 并 需要 
重新 计算 时 ， 或 在 多 个 行动 都 要 用 到 同一 个 没有 缓冲 的 RDD 时 。 


take 可 以 查看 RDD 中 前 面 几 个 元 素 ， 而 且 代价 很 小 。 如 果 在 take 操作 之 前 没有 其 他 运算 
需要 进行 shuffle，take 运算 只 要 计算 第 一 个 分 区 中 的 元 素 : 


myFirstRdd.take(2) 

14/09/29 12:09:13 INFO SparkContext: Starting job: take ... 
14/09/29 12:09:13 INFO SparkContext: Job finished: take ... 
res1: Array[Int] = Array(1, 2) 


可 以 用 takeSample 对 数据 进行 采样 ， 并 将 采样 结果 导入 驱动 程序 以 便 进 行 绘图 或 
本 地 操作 ,或 者 导出 到 另 一 个 环境 (如 R) 中 进行 非 分 布 式 分 析 。 它 的 第 一 个 参数 
withRepLacement 表示 是 否 人 允许 重复 采样 : 


myFirstRdd.takeSample(true, 3) 

14/09/29 12:14:18 INFO SparkContext: Starting job: takeSample ... 
14/09/29 12:14:18 INFO SparkContext: Job finished: takeSample ... 
res11: Array[Int] = Array(2, 1, 1) 


myFirstRdd.takeSample(true, 5) 

14/09/29 12:14:18 INFO SparkContext: Starting job: takeSample ... 
14/09/29 12:14:18 INFO SparkContext: Job finished: takeSample ... 
res11: Array[Int] = Array(2, 1, 1, 2, 4) 


myFirstRdd.takeSample(false, 3) 

14/09/29 12:14:18 INFO SparkContext: Starting job: takeSample ... 
14/09/29 12:14:18 INFO SparkContext: Job finished: takeSample ... 
res11: Array[Int] = Array(2, 1, 4) 


top 返回 数据 集中 按 给 定 ordering 方式 排序 的 最 大 的 上 条 记录 。 许 多 场景 中 都 要 用 到 它 ， 
比如 对 每 条 记录 打分 之 后 检查 得 分 最 高 的 记录 。 与 top 正好 相反 ，take0rdered 返回 最 小 的 
记录 。 下 面 的 示例 代码 生成 0 到 100 的 整数 随机 数 ， 然 后 返回 出 现 次 数 最 多 和 最 少 的 整数 : 
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import scala.util.Random 


val randNums = Seq.fill(10000)(Random.nextInt(100)) 
val numberCounts = sc.parallelize(randNums).map(x => (x, 1)). 
reduceByKey(_ + _) 


numCounts. top(3)(Ordering.by(_._2)) 

14/09/30 23:38:42 INFO SparkContext: Starting job: top ... 
14/09/30 23:38:42 INFO SparkContext: Job finished: top ... 
res6: Array[(Int, Int)] = Array((58,127), (25,120), (28,120)) 


numCounts. takeOrdered(3)(Ordering.by(_._2)) 

14/09/30 23:39:54 INFO SparkContext: Starting job: takeOrdered ... 
14/09/30 23:39:54 INFO SparkContext: Job finished: takeOrdered ... 
res7: Array[(Int, Int)] = Array((74,78), (92,79), (8,80)) 


top 国 数 先 以 分 布 式 的 方式 在 每 个 分 区 内 找 出 最 大 的 上 个 值 ， 然 后 把 这 些 值 都 传 到 驱动 程 
序 端 ， 之 后 在 驱动 程序 端 里 对 所 有 传 过 来 的 值 求 最 大 的 上 个 值 。 这 种 方法 在 上 较 小 时 是 不 
错 的 ， 但 如 果 值 很 大 ， 或 比 一 个 分 区 中 记录 数 还 要 大 ， 它 就 要 把 整个 数据 集 都 传 到 驱动 
程序 上 。 对 于 这 种 情况 ， 我 们 建议 先 用 sortBykKey 分 布 式 地 对 整个 数据 集 排序 ， 然 后 再 取 
前 个 元 素 : 


numberCounts.map(_.swap).sortByKey().map(_.swap).take(5) @ 

14/10/06 13:19:08 INFO SparkContext: Starting job: sortByKey ... 

14/10/06 13:19:08 INFO DAGScheduler: Job 2 finished: take ... 

res3: Array[(Int, Int)] = Array((87,73), (19,76), (75,76), (25,81), (22,81)) 


@ 按 整数 大 小 排序 ， 而 不 是 按 它们 的 个 数 排序 ， 所 以 我 们 需要 对 调 元 组 的 顺序 。 
这 段 代 码 把 数据 传 到 驱动 程序 端 ， 但 sample 常用 于 在 一 系列 处 理 过 程 中 生成 分 布 式 数据 


集 。sample 通过 对 父 RDD 进行 采样 生成 一 个 RDD。 和 takesample 类 型 相似 ，sample 也 
支持 重复 采样 和 非 重复 采样 。 它 接收 一 个 表示 采样 比例 的 参数 。 当 进行 重复 采样 时 ，Spark 
接收 一 个 大 于 1 的 值 ， 这 样 可 以 扩充 样本 数据 集 以 便 对 作业 管道 进行 压力 测试 。sample 还 
可 用 于 改变 数据 的 顺序 。 这 在 运行 随机 梯度 下 降 之 类 的 在 线 算 法 时 是 个 不 错 的 作法 : 


val bootstrapSample = rdd.sample(true, .6) 


val permuted = rdd.sample(false, 1.0) 


randomSplit 返回 多 个 RDD， 它 们 合 在 一 起 就 是 父 RDD。randomSplit 第 常用 于 将 数据 集 
分 成 训练 集 和 测试 集 。 


fullData.cache() 
val (train, test) = fullData.randomSplit(Array(0.6, 0.4)) 
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A.4 文件 格式 


Spar 
Rs 


k 示例 代码 常常 使 用 textFile， 如 果 要 存储 大 型 数据 集 ， 我 们 还 是 推荐 使 用 二 进 制 格 
居 为 既 节 省 空间 还 有 类 型 信息 。Avro 和 Parquet 分 别 是 Hadoop 集群 上 用 于 存储 数据 


的 行 式 格 式 和 列 式 格式 。 磁 盘 上 这 两 种 格式 的 数据 在 读 入 内 存 后 都 可 以 用 Avro 表示 。 


下 面 的 示例 演示 了 如 何 读 取 Avro 格式 的 name 和 favorite_color 字段 : 


import org.apache.hadoop.io.NullWritable 

import org.apache.hadoop.mapreduce.Job 

import org.apache.hadoop.mapreduce. lib.input.FileInputFormat 
import org.apache.avro.generic.GenericRecord 

import org.apache.avro.mapred.AvrokKey 

import org.apache.avro.mapreduce.AvroKeyInputFormat 


val conf = new Job() 

FileInputFormat.setInputPpaths(conf, inpaths) 

val records = sc.newAPIHadoopRDD(conf .getConfiguration, 
classOof[AvroKeyInputFormat[GenericRecord]], 
classOof[AvroKey[GenericRecord]], 
classOof[NullWritable]).map(_._1.datum) 


val namesAndColors = records.map(x => 
(x.get("name"), x.get("favorite color"))) 


类 似 地 ， 可 以 这 样 读 取 Parquet 格式 数据 : 


import org.apache.hadoop.mapreduce.Job 

import org.apache.hadoop.mapreduce. lib.input.FileInputFormat 
import org.apache.avro.generic.GenericRecord 

import parquet.hadoop.ParquetInputFormat 


val conf = new Job() 
FileInputFormat.setInputPpaths(conf, inpaths) 
val records = sc.newAPIHadoopRDD(conf .getConfiguration, 
classOof[ParquetInputFormat], 
classOf[Void], 
classOof[GenericRecord]).map(_._2) 


val namesAndColors = records.map(x => 
(x.get("name"), x.get("favorite color"))) 


注意 Avro 支持 两 种 内 存 表示 。 


。 Avro generics 将 记录 表示 为 一 个 键 为 String、 值 为 0bject 的 map。 在 研究 一 个 新 数据 集 


时 这 种 方式 很 容易 上 手 ， 但 因为 要 把 原始 类 型 包装 为 对 象 ， 所 以 它 的 效率 不 高 。 


。 Avro specifics 则 利用 代码 生成 技术 产生 Avro 类 型 对 应 的 Java 类 。 为 了 节省 篇 幅 ， 我 们 
这 里 就 不 详细 介绍 了 。 本 书 的 附带 GitHub 资料 库 上 有 一 个 例子 ， 有 兴趣 的 读者 可 以 参 
考 二 下。 
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A.5 Spark 子 项 目 


Spark Core 是 指 Spark 的 分 布 式 执行 引擎 和 Spark 的 核心 API。 除 了 Spark Core 之 外 ， 
Spark 还 包含 了 若干 个 子 项 目 ， 它 们 在 Spark Core 之 上 提供 附加 功能 。 后 面 几 节 将 详细 介 
绍 这 些 子 项 目 。 这 些 子 项 目 目 前 处 于 不 同 开 发 阶段 。Spark 的 核心 API 保持 稳定 和 兼容 ， 
但 Spark 的 这 些 子 项 目 则 处 于 alpha 或 beta 版本， 其 API 可 能 会 变化 。 


A.5.1 MLIib 

MLlib 在 Spark 之 上 实现 了 一 组 机 器 学 习 算 法 。 项 目的 目标 是 为 标准 算法 提供 高 质量 的 实 
现 ， 它 主要 强调 算法 的 可 维护 性 和 一 致 性 ， 而 不 是 广度 。 表 A-1 列 出 了 截至 本 书写 作 时 
MLlib 支持 的 算法 。 


表 A-1:，MLIib 算 法 
离散 算法 连续 算法 

监督 学 习 决策 木林、 朴素 贝 叶 斯 、 线 性 支持 向 量 机 、 线 性 回归、Regularized Variants (Ridge/L2、 
逻辑 回归 和 Regularized Variants LASSO/L1)、 决 策 森 林 

小 入 学 习 K 均 全 昭 类 奇人 分 解 、 基 于 交替 股 小 = 乘 的 UV 分 解 _ 


MLlib 把 数据 表示 为 稀疏 或 稠密 的 Vector 对 象 。 它 提供 了 操作 Matrix 和 RowMatrix 对 象 的 
轻 量 级 线性 代数 功能 。Matrix 表示 本 地 矩阵， 而 RowMatrix 表示 向 量 的 分 布 式 集合 。MLlib 
使 用 Scala 线性 代数 工具 Breeze 进行 底层 的 数据 布局 和 操作 。 


截至 本 书写 作 时 MLlib 处 于 beta 版 本 ， 某 些 API 可 能 在 以 后 版 本 中 发 生变 化 。 
本 书 有 几 章 都 使 用 了 MLlib 的 算法 : 

。 第 3 章 使 用 了 MLlib 的 交替 最 小 二 乘 算法 进行 推荐 ， 

。 第 4 章 使 用 了 MLlib 的 随机 决策 树 实现 进行 分 类 ， 

。 第 5 章 使 用 了 MLlib 的 K- 均值 聚 类 算法 进行 异常 检测 ， 

。 第 6 章 使 用 了 MLlib 的 奇异 值 分 解 算法 进行 文本 分 析 。 


A.5.2 Spark Streaming 

Spark Streaming 基于 Spark 引擎 对 数据 进行 不 间断 处 理 。 通 常 Spark 作业 针对 大 数据 集 进 
行 一 次 性 的 批 处 理 ， 然 而 Spark Streaming 则 主要 针对 低 延 时 ( 数 百 毫秒 级 别 ) 场景 : 只 
有 新 数据 出 现 ， 就 需要 对 其 进行 准 实时 的 转换 和 处 理 。Spark Streaming 的 工作 原理 是 在 小 
时 间 间 隔 里 对 数据 进行 汇集 从 而 形成 小 批量 ， 然 后 在 小 批量 数据 上 运行 作业 。 它 常用 于 快 
速 给 出 报警 ， 为 控制 台 提 供 最 新 信息 ， 也 用 于 需要 进行 复杂 分 析 的 场景 。 比 如 异常 检查 中 
一 个 常见 的 用 例 ， 就 是 对 一 批 批 的 数据 进行 天 均值 聚 类 ， 并 在 聚 类 中 心 偏 离 正常 情况 时 触 


发 一 个 警告 。 
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A.5.3 Spark SQL 
Spark SQL 基于 Spark 引擎 对 HDFS 上 的 数据 集 或 已 有 的 RDD 执行 SQL 查询 。 有 了 Spark 


SQL 就 能 在 Spark 程序 上 


有 用 SQL 语句 操作 数据 了 。 


import org.apache.spark.sql.hive.HiveContext 


val sqlContext = HiveContext(sc) 


val schemaRdd = sqlContext.sql("FROM sometable SELECT column1, column2, column3") 
schemaRdd.collect().foreach(println) 


Spark SQL 的 核心 数据 结构 是 SchemaRDD， 包 含 了 模式 信息 ， 模 式 信 息 给 出 了 每 列 的 名 称 和 


类 型 。 通 过 在 已 有 RDD 
例 代码 中 一 样 利 用 Hive 


截至 本 书写 作 时 ，Spark 


A.5.4 GraphxX 
GraphX 是 Spark 的 子 项 


上 标注 类 型 信息 ， 可 以 编程 式 地 创建 SchemaRDD， 也 可 以 像 前 面 示 
的 Schema 信息 来 创建 SchemaRDD。 


SQL 处 于 alpha 版 本 状态 ， 其 API 在 将 来 版 本 中 可 能 发 生变 化 。 


目 ， 它 基于 Spark 引擎 进行 图 计算 。 在 计算 机 科学 中 ， 图 由 一 组 


顶点 和 连接 顶点 的 一 组 边 构成 。 图 算法 可 用 于 研究 社交 网 络 中 的 用 户 关 系 ， 也 可 用 于 根 
据 互联 网 上 的 链接 来 源 来 判断 网 页 的 重要 程度 或 分 析 实 体 之 间 的 连接 结构 。GraphX 用 两 
个 RDD 〈 即 顶点 RDD 和 边 RDD) 来 表示 图 。GraphX 的 API 类 似 Google 的 图 计算 系统 
Pregel， 使 用 GraphX 只 需 区 区 几 行 代码 就 可 以 表示 PageRank 这 样 常 用 的 算法 。 


截至 本 书写 作 时 ，GraphX 处 于 alpha 版 本 状态 ， 其 API 在 将 来 版 本 中 可 能 发 生变 化 。 第 6 
章 就 利用 GraphX 分 析 了 论文 引用 关系 图 。 
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附录 B 
即将 上 友 布 的 MLIib Pipelines AP1 


作者 : Sean Owen 


Spark 项 目 发 展 迅 速 。2014 年 8 月 我 们 开始 撰写 本 书 时 Spark 1.1.0 版 本 即将 发 布 ， 但 到 
2015 年 4 月 本 书 开始 印刷 时 ，Spark 1.2.1 已 然 成 为 媒体 新 宠 了 。 单 单 这 个 Spark 1.2.1 版 本 
就 增加 了 将 近 1000 项 改进 和 问题 修复 。 


为 了 在 小 版 本 之 间 保 持 API 稳定 ， 项 目 尽 量 保持 二 进 制 和 源 代码 的 兼容 性 ，MLlib 的 大 部 
分 API 也 确实 是 稳定 的 。 因 此 ， 本 书 的 示例 代码 应 该 能 在 Spark 1.3.0 及 后 续 1x 版 本 上 
运行 ， 这些 API 实现 不 会 消失 。 但 是 对 于 那些 处 于 发 展 中 的 实验 性 或 只 面向 开发 人 员 的 
API， 新 版 本 常常 增加 新 API 或 修改 已 有 API。 


本 书 已 经 讨论 了 Spark MLlib 的 种 种 优秀 功能 ， 但 对 于 一 本 讲述 Spark 1.2.1 版 本 的 书 ， 我 
们 还 必须 提 及 MLlib 的 一 个 重要 方向 ， 即 Pipelines API， 虽 然 当前 它 的 部 分 API 还 处 于 实 
验 状 态 。 


Pipelines API 正式 发 布 只 有 一 个 月 左右 ,很 多 事情 还 在 不 断 发 展 中 ， 它 还 远 没 有 达到 完成 
的 状态 ， 因 此 我 们 也 无 法 基于 Pipelines API 撰写 本 书 。 但 是 了 解 目前 MLlib 的 已 有 功能 仍 
然 是 有 帮助 的 。 


本 附录 将 快速 介绍 新 的 Pipelines API。Pipelines API 是 Spark 项 目 问题 跟踪 器 中 SPARK-3530 
(https://issues.apache.org/jira/browse/SPARK-3530) 的 成 果 。 
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B.1 不 单单 局 限于 建 模 


就 项 目 目标 和 范围 而 言 ， 当 前 的 MLlib 和 其 他 机 器 学 习 工 具 没什么 太 大 差别 。 它 提供 
了 机 器 学 习 算 法 的 实现 ， 而 且 仅仅 是 最 核心 的 算法 实现 。 每 个 算法 将 预 处 理 后 的 数据 以 
LabeledPoint 或 Rating 等 RDD 作为 输入 ， 并 且 返 回 某 种 结果 模型 的 表示 ， 这 就 是 当前 的 
MLlib。 虽 然 它 很 有 有 用， 但 仅仅 有 算法 还 不 足以 解决 实际 的 机 器 学 习 问题 。 

可 能 你 已 经 注意 到 了 ， 本 书 每 一 章 的 大 部 分 源 代 码 都 是 为 了 从 原始 输入 中 准备 特征 并 对 特 
征 进行 转换 ， 然 后 以 某 种 方式 评价 模型 。 在 整个 过 程 中 ， 调 用 MLlib 算法 只 是 其 中 很 小 的 
一 部 分 ， 而 且 是 相对 简单 的 部 分 。 


这 些 额 外 的 处 理 对 所 有 机 器 学 习 问 题 都 是 普遍 存在 的 。 实 际 上 部 署 一 个 生产 机 器 学 习 模 型 
可 能 需要 更 多 工作 : 


. 将 原始 数据 解析 成 特征 
. 将 特征 转换 成 其 他 特征 
. 构建 模型 

.评价 模型 

. 模型 超 参数 调 优 
重建 和 部 署 模型 
.实时 模型 更 新 

. 根据 模型 实时 进行 查询 


从 这 个 角度 看 ，MLlib 只 处 理 了 第 3 项， 这 只 是 很 小 一 部 分 。 新 的 Pipelines API 将 扩展 
MLlib，MLlib 将 作为 一 个 框架 以 涵盖 第 1 项 到 第 5 项 。 在 本 书 中 这 几 项 工作 我 们 是 以 不 同 
方式 手工 完成 的 。 


其 他 项 也 是 重要 的 ， 但 可 能 不 会 在 MLlib 的 项 目 范 围 内 。 这 些 工 作 可 结合 Spark Streaming、 
JPMML (https:Wgithub.comyjpmml)、REST (http://en.wikipedia.org/wiki/Representational_ 
state_transfer) API、Apache Kafka (http://kafka.apache.org/) 等 工具 来 完成 。 


oo OU 信人 DD- 


B.2 Pipelines API 


新 Pipelines API 为 这 些 机 器 学 习 任 务 提供 了 一 个 简洁 的 视图 : 每 个 阶段 数据 都 转换 成 其 他 
数据 ， 并 且 最 终 转 换 成 一 个 模型 ， 而 模型 这 个 实体 本 身 只 是 将 一 种 数据 (输入 ) 转换 成 另 
一 种 数据 (预测 ) 而 已 。 

这 里 数据 总 是 表示 为 一 个 特殊 的 RDD， 这 一 想法 借鉴 自 Spark Sr 的 org.apache.spark. 


sqL.SchemaRDD 类 。 顾 名 思 义 ，SchemaRDD 包含 了 类 似 表 的 数据 ， 其 中 每 个 元 素 是 一 个 Row。 
每 个 Row 都 有 相同 的 “ 列 ”， 列 的 模式 是 已 知 的 ， 包 括 名 称 、 类 型 等 
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这 样 我 们 能 够 以 类 SQL 的 方式 便捷 地 对 数据 进行 转换 、 投 影 、 过 滤 和 联结 操作 。 结 合 其 他 
Spark API， 基 本 上 就 回答 了 前 面 列表 中 的 第 1 项 。 


更 重要 的 是 ， 有 了 模式 信息 之 后 机 器 学 习 算 法 就 能 更 准确 更 自动 地 区 分 数值 型 特征 和 类 别 
型 特征 。 输 入 不 再 仅仅 是 Double 数组 ， 调 用 者 还 将 指定 输入 中 哪些 值 实际 上 是 类 别 型 。 


新 Pipelines API 位 于 org.apache.spark.ml 包 里 ， 至 少 目前 已 经 发 布 的 实验 性 API 预览 版 
都 在 该 包 里 面 。 相 比 之 下 ， 当 前 稳定 版 本 的 API 都 在 org.apache.spark.mLLib 包 里 面 。 


Transformer 抽象 表示 将 数据 转换 成 其 他 数据 ， 即 从 一 个 SchemaRDD 到 另 一 个 SchemaRDD 的 
转换 逻辑 。Estimator 表示 从 一 个 SchemaRDD 构建 机 器 学 习 模 式 即 Model 的 逻辑 ，Model 本 
身 也 是 Transformer 。 


org.apache.spark.ml.feature 提供 了 一 些 辅助 功能 ， 比 如 在 TF-IDF 中 计算 词 项 频率 的 
HashingTF， 或 者 进行 简单 解析 的 Tokentzer。 这 样 新 API 就 可 以 支持 第 2 项 工作 。 


Pipeline 抽象 表示 一 系列 Transformer 和 Estimator 对 象 ， 可 以 在 输入 SchemaRDD 上 连续 使 
用 Transformer 和 Estimator 对 象 以 输出 一 个 Model。 为 Pipeline 生成 一 个 模型 ， 所 以 
Pipeline 本 身 是 一 个 Estimator。 


我 们 可 以 对 这 种 设计 作出 一 些 有 意思 的 组 合 。Pipeline 可 以 包含 一 个 Estimator， 这 就 意 
味 着 它 可 以 在 内 部 构建 一 个 Model， 而 Model 然后 又 可 以 用 作 Transformer。 也 就 是 说 ， 
Pipeline 可 以 在 内 部 构建 并 使 用 算法 进行 预测 ， 这 可 以 作为 一 个 更 大 工作 流 的 一 部 分 。 这 
同时 也 意味 着 ，Pipeline 内 部 实际 上 也 可 以 包含 其 他 Pipeline 实例 。 


为 了 支持 第 3 项 任务 ， 新 的 实验 性 API 已 经 简单 实现 了 至 少 一 个 实际 模型 构建 算法 ， 那 就 
是 org.apache.spark.ml.classification.LogisticRegression。 比 如 ,虽然 我 们 可 以 将 已 有 
的 org.apache.spark.mLLib 实现 包装 成 一 个 Estimator， 但 新 API 已 经 为 我 们 实现 逻辑 
归 重 写 了 代码 。 


回 


Evaluator 抽象 支持 模型 预测 评价 。EvaLuator 反 过 来 又 用 于 org.apache.spark.ml.tuning 
的 CrossValidator 类 中 ， 从 而 实现 从 SchemaRDD 创建 和 评价 许多 Model 实例， 因此 
EvaLuator 也 是 Estimator。org.apache.spark.ml.params 中 的 辅助 性 API 定义 了 超 参 数 和 
网 格 搜索 参数 ， 可 以 用 于 CrossValidator。 这 些 包 帮助 我 们 处 理 第 4 项 和 第 5 项 任务 ， 也 
就 是 在 一 个 更 大 的 工作 流 中 进行 模型 评价 和 调 优 。 


B.3 文本 分 类 示例 演示 


Spark Examples 模块 提供 了 一 个 如 何 使 用 新 API 的 示例 ， 包 含 在 org.apache.spark. 
examples.ml.SimpleTextClassificationpPipeline 类 中 ， 它 的 行动 如 图 B-1 所 示 : 
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id,text,score words 
Qabcdespark’1 ab,cd,e,spark 
1’bd’0 bd 
2,sparkf gh’1 spark,f,g,h 


id,text 
4,sparkijk” 
5S"Imn 逻辑 回归 
6"mapreduce spark” 


Pipeline 


预测 
1 


B-1: 简单 文本 分 类 的 Pipeline 


输入 为 文档 对 象 ， 包 含 ID、text 和 score (标号 )。 虽 然 training 不 是 SchemaRDD， 但 后 面 


我 们 隐 式 将 它 转换 成 了 SchemaRDD: 


val training = sparkContext.parallelize(Seq( 
LabeledDocument(0L, "a b cd e spark", 1.0), 
LabeledDocument(1L, "b d", 0.0), 
LabeledDocument(2L, "spark f g h", 1.0), 
LabeledDocument(3L, "hadoop mapreduce", 0.0))) 


pipeline 用 到 了 两 种 Transformer 实现 。 首 先 Tokenizer 用 空格 将 文本 拆 分 成 单词 。 接 着 
HashingTF 为 每 个 单词 计算 词 项 频率 。 最 后 LogisticRegression 把 这 些 词 频 作为 输入 特征 


创建 分 类 器 ， 代 码 如 下 : 


val tokenizer = new Tokenizer(). 
setInputCol("text"). 
setOutputCol("words") 

val hashingTF = new HashingTF(). 
setNumFeatures(1000). 
setInputCol(tokenizer .getOutputCol). 
setOutputCol("features") 

val lr = new LogisticRegression(). 
setMaxIter(10). 
setRegParam(0.01) 
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T 


我 们 将 这 些 操作 合并 到 一 个 Pipeline 中 ， 让 Pipeline 实际 执行 从 输入 训练 数据 中 构造 模 
型 的 工作 : 


val pipeline = new Pipeline(). 
setStages(Array(tokenizer, hashingTF, lr)) 
val model = pipeline.fit(training) © 
@ 隐 式 转换 为 SchemaRDD。 
最 后 ， 我 们 将 模型 用 于 新 文档 的 分 类 。 注 意 model 实际 上 是 一 个 包含 所 有 转换 逻辑 的 
PipeLine， 而 不 只 是 一 个 对 分 类 模型 的 调用 ， 代 码 如 下 : 


val test = sparkContext.parallelize(Seq( 
Document(4L, "spark i j k"), 
Document(5L，"L mn'")， 
Document(6L, "mapreduce spark"), 
Document(7L, "apache hadoop"))) 
model.transform(test). 
select('id, 'text, 'score, 'prediction). ©@ 
collect(). 
foreach(println) 


@ 这 里 不 是 字符 串 ， 而 是 Expressions 语法 。 


如 果 要 实现 相同 功能 ， 相 比 当前 基于 MLlib API 的 手工 代码 ， 基 于 Pipeline API 的 代码 更 
简单 ， 结 构 更 清晰 ， 也 更 利于 重用 。 


期 待 Spark 1.3.0 及 后 续 版 本 中 org.apache.spark.ml Pipeline API 有 更 多 新 功能 和 改进 | 
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作者 介绍 


Sandy Ryza 是 Cloudera 公司 资深 数据 科学 家 ， 同 时 也 是 Apache Spark 项 目的 活路 代码 页 
献 者 。 最 近 他 领导 了 Cloudera 公司 的 Spark 开发 工作 。Sandy 目前 的 工作 是 帮助 客户 在 
Spark 上 开发 分 析 型 应 用 。Sandy 还 是 Hadoop 项 目 管理 委员 会 委员 。 


Uri Laserson 是 Cloudera 公司 资深 数据 科学 家 ， 专 注 于 Hadoop 生态 系统 中 的 Python 部 
分 。 他 同时 也 帮助 客户 用 Hadoop 解决 各 种 问题 ， 主 要 集中 在 生命 科学 和 医疗 领域 。 在 加 
入 Cloudera 公司 之 前 ，Uri 在 麻 省 理工 学 院 攻 读 生物 医学 工程 博士 学 位 ， 期 间 和 他 人 一 起 
创建 了 致力 于 下 一 代 诊 断 技 术 的 Good Start Genetics 公司 。 


Sean Owen 是 Cloudera 公司 EMEA 地 区 的 数据 科学 总 监 。Sean 是 Apache 机 器 学 习 项 
目 Mahout 的 代码 提交 者 和 关键 代码 贡献 者 。Mahout 项 目 中 的 Taste 推荐 引擎 框架 就 出 
自 Sean 之 手 。Sean 也 是 Apache Spark 项 目的 代码 提交 者 。 他 创立 了 基于 Spark、Spark 
Streaming 和 Kafka 的 Hadoop 实时 大 规模 学 习 项 目 Oryx (之 前 称 为 Myrrix) 。 


Josh Wills 是 Cloudera 公司 高 级 数据 科学 总 监 ， 致 力 于 与 客户 和 工程 师 一 起 开发 基于 
Hadoop 的 各 行业 解决 方案 。 他 是 Apache Crunch 项 目的 发 起 者 和 副 总 裁 。Crunch 项 目的 目 
的 是 优化 Java 语言 的 MapReduce 和 Spark 处理 管 道 。 在 加 入 Cloudera 公司 之 前 ，Josh 就 
职 于 Google 公司 ， 期 间 他 开发 了 Google 公司 的 广告 拍卖 系统 并 领导 开发 了 Googlet 的 分 
析 基 础 设施 。 


封面 介绍 


本 书 封面 上 的 动物 游 储 是 世界 上 最 常见 的 掠 食 鸟 类 之 一 ， 地 球 上 除了 南极 洲 之 外 都 可 以 见 
到 它 的 身影 。 游 储 的 栖息 地 非常 广泛 ， 包 括 城市 、 热 带 、 沙 漠 和 营 原 。 有 些 游 华 会 从 越冬 
地 迁徙 很 长 的 距离 到 达 夏 李 栖 息 地 。 


游 华 是 世界 上 飞行 速度 最 快 的 岛 类 ， 其 俯冲 速度 达到 每 小 时 200 英里 。 游 华 的 食物 是 其 他 
鸟 类 ， 比 如 鸣 鸟 和 野 鸣 ， 同 时 也 吃 蝙 蝠 ， 和 它们 可 以 在 半空 中 抓 住 猎 物 。 


成 年 游 集 的 翅膀 为 蓝 灰色 ， 背 部 为 黑 神色 ， 腹 部 为 米色 且 带 有 带 褐色 斑点 ， 脸 部 为 白色 ， 
面 类 上 有 黑色 条 纹 。 游 华 的 乌 嘴 呈 钩 形 ， 并 且 有 一 双 有 力 的 爪子 。 游 储 的 名 字 来 自 拉 丁 语 
“peregrinus”， 意 思 是 “盘旋 ”。 游 华 深 受 放 座 者 的 喜爱 ， 数 百年 来 都 出 现在 放 座 运动 中 。 


OReilly 用 在 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 全 都 对 这 个 世界 很 重要 。 如 果 你 想 帮 
助 它们 ， 请 访问 animals.oreilly.com/。 


封面 图 片 源 自 Lydekker 所 著 的 The Royal Natural History。 
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C 〇 REILLY 


Spark 高 级 数据 分 析 


这 是 一 本 实用 手册 ， 四 位 作者 均 是 Cloudera 公 司 的 数据 科学 家 ， 他 们 联 
神 展 示 了 利用 Spark 进 行 大 规模 数据 分 析 的 若干 模式 ， 而 且 每 个 模式 都 自 
成 一 体 。 他 们 将 Spark、 统 计 学 方法 和 真实 数据 集结 合 起 来 ， 通 过 实例 向 


读者 讲述 了 怎样 解决 分 析 型 问题 。 


本 书 首先 介绍 了 Spark 及 其 生态 系统 ， 接 着 详细 介绍 了 将 分 类 、 协 同 过 滤 
及 异常 检查 等 常用 技术 应 用 于 基因 学 、 安 全 和 金融 领域 的 若干 模式 。 如 
果 你 对 机 器 学 习 和 统计 学 有 基本 的 了 解 ， 并 且 会 用 Java、Python 或 Scala 


编程 ， 这 些 模式 将 有 助 于 你 开发 自己 的 数据 应 用 。 


本 书 介 绍 了 以 下 模式 : 

国 音乐 推荐 和 Audioscrobbler 数 据 集 

四 用 决策 树 算法 预测 森林 植被 

国 基于 /均值 聚 类 进行 网 络 流量 的 异常 检测 

国 基于 潜在 语义 分 析 技 术 分 析 维 基 百 科 

国 用 GraphX 分 析 伴 生 网 络 

是 对 纽约 出 租车 轨迹 进行 空间 和 时 间 数 据 分 析 
国 通过 蒙特 卡 罗 模 拟 来 评估 金融 风险 

四 基因 数据 分 析 和 BDG 项 目 

国 用 PySpark 和 Thunder 分 析 神 经 图 像 数 据 
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